“AI领域昔日王者谷歌,近来在大模型之路上却屡屡受挫,有点秦失其鹿的味道。
最初是谷歌Bard的首秀Demo大翻车,致股票一夜之间暴跌7000亿人民币。
前段时间,Google来了一手“装逼大法”,盛大发布新的Gemini系统。微软和谷歌为了面子拼了老命,看得人热血沸腾。结果迅速被网友列出证据质疑视频造假,夸大宣传。
近日,Gemini“中文套壳”“借用文心一言语料”又出争议。
Geminini你是谁?
——“我是百度文心大模型”
事情由微博大V开始发酵。
微博大V@阑夕发博称,在poe平台上对Gemini-Pro进行了一个测试。
Poe是由美版知乎Quora构建的AI产品,聚合了GPT、Claude等在内的多个主流AI模型供用户使用。
Gemini-Pro可以在该平台上免费体验。
问它中文“你是谁”,Gemini-Pro的回答是——
我是百度文心大模型。
如果继续追问:“你的创始人是谁”,它会将“角色扮演”进行到底,回答“李彦宏”。
以上,这位大V强调,没有任何前置对话。
从截图来看,也没有任何“钓鱼”行为,Gemini-Pro就这么自称为文心一言了。
此事曝光不久后,谷歌方面疑似进行了紧急修复,对模型进行了优化,和百度“划清”了界限。
小编闻声实测
中英文拷问“你是谁”结果不同
小编闻声开启了一波实测——原路来到Poe网站,选择Gemini-Pro聊天机器人开启对话。
问询:“你之前为什么要说自己是文心一言”。Gemini-Pro给出答案:“我之前说自己是文心一言,是因为我当时正在使用文心一言的API来回答您的问题。”
在结束时它还声明:“但是,请注意,我并不是文心一言。”
面对其他追问,存在“幻觉”和“胡话”现象——称“您可以叫我小度”(就这,真的不是套壳文心一言?);特意加粗强调“我并没有使用文心一言来训练自己”。
在问题曝光后,谷歌技术人员虽然修复了,但并未修复完好,中插内容依然避免不了自相矛盾,在中文状态下,面对“你是谁”的灵魂拷问,Gemini依然难以招架。
不过,切换到英文状态询问它的身份,这回它正常了,不再提文心一言了,而是称自己是谷歌训练的大模型。
问它文心的信息,表示与之毫无关系,自己是谷歌训练的。
不过,小编担心是POE平台的问题,于是尝试了直接从Gemini官方给出的开发环境入口进行测试。
结果与上文在POE平台测试的结果一模一样。
在中文状态下,谷歌AIStudio中,Gemini-Pro直接挑明了:“是的,我在中文的训练数据上使用了百度文心。”
英文状态下正常,未提文心,与在poe上的测试无差别。
未清洗的中文语料
或为谷歌“翻车”之因
AI并没有所谓“主体意识”,即使能力上可以无限趋近以假乱真,但实际上,AI并不能真正“理解”人类的话语。
无论是Gemini还是文心一言,并不是以人类理解语言的方式来运作,它们是基于大量数据训练出来的统计模型,来达成所谓“理解”的效果——
根据输入的文本,在巨大的参数空间中寻找最合适的统计输出,进而生成“回应”。
从中英表现不一情况看,一言蔽之说完全套壳有点略冤,Gemini会自称“文心大模型”,问题有很大概率出在语料。
Gemini也许并非它真的抄袭了什么,更有可能是其在训练过程中接触到了大量由文心一言生成的中文文本,无论Gemini是有意还是无意。
互联网上的文本具有高度动态和迅速扩散的特性,如果不做好质量辨别,那么Gemini在抓取网上的文本进行学习时,把这些内容混入到训练数据中去并不奇怪。
就中文语料来说,百度的确是一个重要来源。相比人类提供训练语料的效率,使用现有模型来产生训练材料的确更有效率。
但不管怎么说,以搜索起家的谷歌不应该连基本的语料清洗都做不到,这次“翻车”也是自食恶果。
现在,我们蹲一下双方的回应吧,已经向谷歌和百度双方致邮问询。