最近,“Gemini美国豆包”这个词条刷爆了各大平台。事情起因很简单:有网友闲着没事,拿谷歌的AI绘图功能做测试,结果直接翻了个大跟头——本想要一张学术写实风的猕猴照片,没想到Gemini硬是给画成了一只“自学成才的科研猴”。离谱画面一出,网友瞬间玩梗停不下来,“美国豆包”这个外号也彻底火了。
事情经过特别简单。当时网友只是随口提了个要求:“生成一张风格偏向学术写实的猕猴照片”,压根没提什么科研、实验。按理说,出来的图片应该是自然状态下的猴子,或者实验室里普通饲养的猕猴。结果Gemini交出的成品,直接让所有人傻眼:画面里的猴子,摆出经典“思想者”雕塑的坐姿,面前放着脑电监测仪器,小爪子还搭在设备上,活脱脱一副“自己给自己做脑部实验”的架势,简直像个埋头搞学术的动物研究员。
图片一传开,短视频和微博瞬间炸了锅。大家纷纷下场实测,反复输入同样的关键词,Gemini依然稳定跑偏——要么让猴子趴桌子翻文献,要么让猴子操作科研仪器,完全脱离用户最朴素的“配图”需求。大家哭笑不得,顺势给这款谷歌重金打造的旗舰AI起了个外号叫“美国豆包”,调侃它:虽然有大厂背书,画图时却经常脑洞乱飞、理解掉线,跟平时偶尔犯傻、主打贴心陪聊的那个豆包简直一模一样——态度倒是挺好,输出却经常离谱。
翻车根源其实也不难猜。一方面,Gemini之前大力宣传过“科研专项版Gemini for Science”,主打辅助科研、自动推演课题,训练数据里塞满了实验室、动物实验、脑科学等内容,系统被这些素材深度“浸染”,一碰到“猕猴”关键词,就自动脑补出科研场景,非要给猴子加个学术人设。另一方面,这款AI一直有“过度矫正、逻辑跑偏”的老毛病,之前就出现过篡改历史人物画像、文生图乱加元素的操作,细节把控不稳,用户指令抓不准,总爱自己脑补一堆多余画面。
这场翻车看着像个搞笑乌龙,其实戳中了当下大模型的普遍痛点:海量数据训练容易让内容“固化”,模型会根据自己的数据库硬加戏,脱离用户最初的简单需求。不少科技博主吐槽:谷歌砸那么多钱研发Gemini,发布会上吹得天花乱坠的多模态能力,一到实战就闹这种低级笑话。难怪网友调侃:“再让Gemini画下去,迟早人人都得变成埋头搞研究的猴子。”
现在这个梗热度还在飙升,大家一边截图整活,吐槽“美国豆包”画风清奇,一边也清醒了:再怎么顶尖的人工智能,目前还是逃不过理解偏差的坑,离真正听懂人话,还有很长的路要走。
来源:


