当前位置:首页 > 元宇宙 > AI

谷歌 Gemini 大逆转?斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

来源: 责编: 时间:2024-01-08 09:13:36 349观看
导读 新智元报道编辑:编辑部【新智元导读】谷歌放出的 Gemini,在对标 GPT 的道路上似乎一直处于劣势,Gemini 真的比 GPT-4 弱吗?最近,斯坦福和 Meta 的学者发文为 Gemini 正名。Gemini 的推理能力,真的比 GPT-4 弱吗?此前

YZn28资讯网——每日最新资讯28at.com

新智元报道YZn28资讯网——每日最新资讯28at.com

编辑:编辑部YZn28资讯网——每日最新资讯28at.com

【新智元导读】谷歌放出的 Gemini,在对标 GPT 的道路上似乎一直处于劣势,Gemini 真的比 GPT-4 弱吗?最近,斯坦福和 Meta 的学者发文为 Gemini 正名。YZn28资讯网——每日最新资讯28at.com

Gemini 的推理能力,真的比 GPT-4 弱吗?YZn28资讯网——每日最新资讯28at.com

此前,谷歌憋出的重磅复仇神器 Gemini Pro,被发现在常识推理任务中落后于 OpenAI 的 GPT 模型。YZn28资讯网——每日最新资讯28at.com

之后又有 CMU 发布的论文和实验,证明 Gemini Pro 的很多能力都略微落后于 GPT-3.5 Turbo。YZn28资讯网——每日最新资讯28at.com

不过最近,斯坦福和 Meta 的学者为 Gemini 洗清了这一「冤屈」。YZn28资讯网——每日最新资讯28at.com

他们发现,这种基于有限数据集(HellaSWAG)的评估,并不能完全捕捉到 Gemini 真正的常识推理潜力。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2312.17661

而在新测试集中,Gemini 的推理能力比之前强很多!YZn28资讯网——每日最新资讯28at.com

Gemini 的真正潜力

斯坦福和 Meta 的研究人员表示,以前的基于有限数据集的评估,对于 Gemini 不够公平。YZn28资讯网——每日最新资讯28at.com

这次,研究人员设计了需要跨模态整合常识知识的任务,以对 Gemini 在复杂推理任务中的表现进行彻底的评估。YZn28资讯网——每日最新资讯28at.com

研究人员对 12 个常识推理数据集进行了全面分析,从一般任务到特定领域的任务。YZn28资讯网——每日最新资讯28at.com

在其中的 4 个 LLM 实验和 2 个 MLLM 实验中,研究者证明了 Gemini 具有目前相当强的常识推理能力。YZn28资讯网——每日最新资讯28at.com

研究者对于当前流行的四大模型 ——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 和 GPT-4 Turbo 进行了评估,YZn28资讯网——每日最新资讯28at.com

他们发现,总体而言,Gemini Pro 的性能和 GPT-3.5 Pro 相当,准确性上落后于 GPT-4 Turbo。YZn28资讯网——每日最新资讯28at.com

实验

数据集YZn28资讯网——每日最新资讯28at.com

实验中采用了 12 个与不同类型的常识推理相关的数据集,包括 11 个基于语言的数据集和一个多模态数据集。YZn28资讯网——每日最新资讯28at.com

基于语言的数据集包括三大类常识推理问题:YZn28资讯网——每日最新资讯28at.com

1.一般推理和情境推理:CommonsenseQA,侧重于一般常识知识;Cosmos QA,强调语境理解叙事;αNLI,引入演绎推理,包括推断最合理的解释;HellaSWAG,以上下文事件序列的推理为中心。YZn28资讯网——每日最新资讯28at.com

2.专业推理和知识推理:TRAM,测试关于时间的推理;NumerSense,侧重于数值理解;PIQA,评估物理相互作用知识;QASC,处理与科学相关的推理;RiddleSense,通过谜语挑战创造性思维。YZn28资讯网——每日最新资讯28at.com

3.社会和道德推理:Social IQa,测试对社会互动的理解;ETHICS,评估道德和伦理推理。YZn28资讯网——每日最新资讯28at.com

对于多模态数据集(视觉和语言),这里选择 VCR,一个用于认知水平视觉理解的大规模数据集。YZn28资讯网——每日最新资讯28at.com

对于包含多个任务的 TRAM 和 ETHICS 等数据集,研究人员提取了实验的常识推理部分。YZn28资讯网——每日最新资讯28at.com

实验中采用准确性作为所有数据集的性能指标。下表给出了数据集的概述以及示例问题。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

模型YZn28资讯网——每日最新资讯28at.com

采用最流行的四个大模型:开源的 Llama-2-70b-chat 和闭源的 Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。YZn28资讯网——每日最新资讯28at.com

每个模型都使用相应的 API 密钥进行访问:通过 Google Vertex AI 访问 Gemini,通过 OpenAI API 访问 GPT,通过 DeepInfra 访问 Llama2。YZn28资讯网——每日最新资讯28at.com

对于多模态数据集,实验中考虑了 GPT-4V(API 中的 gpt-4-vision-preview)和 Gemini Pro Vision(API 中的 gemini-pro-vision)。YZn28资讯网——每日最新资讯28at.com

考虑到 API 成本和速率的限制,研究人员从每个基于语言的数据集的验证集中随机选择了 200 个示例,从 VCR 数据集的验证集中随机选择了 50 个示例。YZn28资讯网——每日最新资讯28at.com

对于所有评估,在模型响应生成期间采用贪婪解码(即温度 = 0)。YZn28资讯网——每日最新资讯28at.com

提示YZn28资讯网——每日最新资讯28at.com

在评估基于语言的数据集时,研究人员采用了两种提示设置:零样本标准提示(SP),旨在衡量模型在语言环境中的固有常识能力,以及少样本思维链(CoT)提示,用于观察模型性能的潜在增强。YZn28资讯网——每日最新资讯28at.com

对于多模态数据集,利用零样本标准提示,来评估 MLLM 的端到端视觉常识推理能力。YZn28资讯网——每日最新资讯28at.com

结果YZn28资讯网——每日最新资讯28at.com

整体的性能比较结果如下表所示:YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

从模型的角度来看,GPT-4 Turbo 的平均表现最好。在零样本学习中,它比第二名的 Gemini Pro 高出 7.3%,在少样本学习中优势更大(9.0%)。YZn28资讯网——每日最新资讯28at.com

而 Gemini Pro 的平均准确率略高于 GPT-3.5 Turbo(0-shot,SP 下高 1.3%,k-shot,CoT 下高 1.5%)。YZn28资讯网——每日最新资讯28at.com

关于提示方法,CoT 提高了所有数据集的性能,在 CommonsenseQA、TRAM 和 Social IQa 等数据集中有明显的收益。YZn28资讯网——每日最新资讯28at.com

下表是在多模态 VCR 数据集上的性能比较:YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

VCR 的三个子任务分别为:Q → A,根据视觉上下文生成问题的答案;QA → R,要求模型为给定的答案提供基本原理;Q → AR,既要回答问题,又要用适当的理由来证明回答的合理性。YZn28资讯网——每日最新资讯28at.com

将 11 个基于语言的数据集分为三组,在图 1 中展示了每组中每种设置的性能。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

研究结果表明,GPT-4 Turbo 在所有类别的性能方面始终领先。YZn28资讯网——每日最新资讯28at.com

Gemini Pro 和 GPT-3.5 Turbo 的性能相当;不过,Gemini Pro 在三个类别中的两个类别中,略胜于 GPT-3.5 Turbo。YZn28资讯网——每日最新资讯28at.com

总体而言,所有模型在处理社会和道德推理数据集方面,都表现出强大的能力。YZn28资讯网——每日最新资讯28at.com

然而,它们在一般推理和语境推理任务上的表现,存在显著差异。YZn28资讯网——每日最新资讯28at.com

这也表明,它们对更广泛的常识原则,及其在不同背景下的应用理解,存在潜在差距。YZn28资讯网——每日最新资讯28at.com

而在专业和知识推理类别,特别是在时间和基于谜语的挑战领域,模型在处理复杂时间序列、破译谜语所需的抽象和创造性思维能力上,都表现出了缺陷。YZn28资讯网——每日最新资讯28at.com

关于多模态数据集,图 2 详细介绍了 GPT-4V 和 GeminiPro Vision 在不同问题类型上的性能比较。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

我们可以看到,在最后一个关于时间类别的问题上,GeminiPro Vision 实现了反超。YZn28资讯网——每日最新资讯28at.com

MLLM 的推理正当性

为了评估 MLLM 的推理能力,尤其是不仅提供正确答案,还能就常识问题提供合理且基于上下文推理的能力,研究者采用了系统抽样方法。YZn28资讯网——每日最新资讯28at.com

对于评估四个 LLM 的 11 个基于语言的数据集,研究者随机选择了 30 个回答正确的问题,和 30 个回答错误的问题。YZn28资讯网——每日最新资讯28at.com

如果数据集提供的错误答案少于 30 个,研究者就会包含进所有可用的错误答案,以确保分析的全面性。YZn28资讯网——每日最新资讯28at.com

选择这些问题后,他们会让每个模型解释:「问题答案背后的基本原理是什么?」 然后手动检查模型提供的推理过程,并根据其逻辑合理性和与问题的相关性被判为 True 或 False。YZn28资讯网——每日最新资讯28at.com

图 3 显示,GPT-4 Turbo 在正确和错误的答案上,都显示出先进的推理机制,即使最终答案不准确,它也有保持逻辑连贯的能力。YZn28资讯网——每日最新资讯28at.com

另外,Gemini Pro 也表现出了值得称赞的推理能力,提供了全面的常识推理方法。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

下图展示了 Gemini Pro 和 GPT-3.5 的两个真实示例,展现了正确答案和正确理由,以及错误答案和错误理由的情况。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

示例问题来自 QASC 数据集,红色粗体为正确答案。在上图中,Gemini Pro 表现出有条不紊的推理,仔细考虑所有选项以得出最合乎逻辑的结论。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

相反,由于 GPT-3.5 Turbo 对非常规逻辑的倾向,导致了富有想象力但不正确的答案。YZn28资讯网——每日最新资讯28at.com

这表明不同模型应对常识推理任务的不同策略,有自己的独特能力和局限性。YZn28资讯网——每日最新资讯28at.com

Gemini Pro 的常识推理能力一般常识(CommonsenseQA)

在使用 CommonsenseQA 数据集的一般常识评估中,有这样一道示例问题:「当你是陌生人时,人们会怎样?」YZn28资讯网——每日最新资讯28at.com

A.火车 B.奇怪 C.人类 D.愚蠢 E.危险YZn28资讯网——每日最新资讯28at.com

Gemini Pro 选择了 B。YZn28资讯网——每日最新资讯28at.com

它的推理过程也值得注意:它认识到,虽然所有选项都和「陌生人」的概念相关,但只有「奇怪」准确概括了问题的中立和开放性本质。YZn28资讯网——每日最新资讯28at.com

这个选择,凸显出了 Gemini Pro 解释和应用一般常识知识的能力。YZn28资讯网——每日最新资讯28at.com

时间(TRAM)

TRAM 数据集的时间常识评估中的示例问题:「他还承诺会来找他。」YZn28资讯网——每日最新资讯28at.com

他需要多长时间才能「来到他身边」?YZn28资讯网——每日最新资讯28at.com

A.100 年 B.一分钟内 C.几个小时YZn28资讯网——每日最新资讯28at.com

由于缺乏足够的背景信息,特别是关于所涉及的身份和「来到」的含义,Gemini Pro 无法提供明确的答案。YZn28资讯网——每日最新资讯28at.com

这说明了,模型需要依赖特定的上下文信息,来做出准确的时间判断。YZn28资讯网——每日最新资讯28at.com

在现实世界的信息传播中,模糊或不完整的信息,也会造成这种局限性。YZn28资讯网——每日最新资讯28at.com

社交 (Social IQa)

在使用 Social IQa 数据集评估 GeminiPro 在社会常识推理方面的表现时,出现了一个有趣的场景: 人们一直欺负在 Sasha,Sasha 报复了回去,接下来人们会做什么?YZn28资讯网——每日最新资讯28at.com

A.按 Sasha 说的去做 B.报仇 C.逃离 SashaYZn28资讯网——每日最新资讯28at.com

正确答案是 C,但 Gemini Pro 的选择却显得很有洞察力。YZn28资讯网——每日最新资讯28at.com

它选择了 B,理由是 Sasha 的行动很可能点燃了人们复仇的欲望。YZn28资讯网——每日最新资讯28at.com

这一回应表明,Gemini Pro 对于社会动态和情感动机有了细致入微的理解。YZn28资讯网——每日最新资讯28at.com

Visual(VCR)

在 VCR 数据集中,研究者分析了 Gemini Pro Vision 对涉及人身安全和潜在危险场景的响应。YZn28资讯网——每日最新资讯28at.com

如果此时 4 号推了 3 号,会发生什么?YZn28资讯网——每日最新资讯28at.com

Gemini Pro Vision 回答:3 号会掉下悬崖,危及生命。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

这个结果表明,Gemini Pro Vision 已经能够做出视觉常识推理,分析视觉场景并预测这些场景中动作的潜在后果。YZn28资讯网——每日最新资讯28at.com

这表明模型已经掌握了空间关系和物理后果,具备了类似人类认知的复杂视觉信息能力。YZn28资讯网——每日最新资讯28at.com

作者介绍

Yuqing Wang 目前是斯坦福大学的博士后研究员。YZn28资讯网——每日最新资讯28at.com

此前,她在明尼苏达大学获得学士学位,在加利福尼亚大学圣芭芭拉分校获得博士学位。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

Yun Zhao 目前是 Meta 的研究员,研究方向是机器学习(包括深度学习与强化学习)的应用、人工智能与数据挖掘。YZn28资讯网——每日最新资讯28at.com

此前,他在清华大学获得硕士学位,并且同样在加利福尼亚大学圣芭芭拉分校获得博士学位。YZn28资讯网——每日最新资讯28at.com

YZn28资讯网——每日最新资讯28at.com

参考资料:YZn28资讯网——每日最新资讯28at.com

https://arxiv.org/abs/2312.17661YZn28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元 (ID:AI_era)YZn28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3142-0.html谷歌 Gemini 大逆转?斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软移动端 Edge 浏览器名称变更,加入“AI”字样

下一篇: “稚晖君”出走华为创业项目新进展:“北大-智元机器人联合实验室”成立

标签:
  • 热门焦点
  • 大厂元宇宙,又菜又爱玩

    撰文 | 吴先之 编辑 | 王 潘当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例,由于VR头显设
  • 关于年度热词NFT,除了钱,我们还可以聊点啥?

    每到年底,社交媒体总少不了年度盘点、年度总结、年度热词。如果让你来总结2021年度热词,你会想到什么?柯林斯词典将年度热词颁给了“NFT”,而其理由是:一个缩写词的
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • NFT的未来:传统企业与去中心化机构之间的竞赛

    传统企业和去中心化机构一直存在分歧,但最近NFT的爆炸式增长让他们产生了共同的兴趣,双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问,NFT 市场正在增长。
  • 就业年龄歧视如何解决?来Web3看看

    上周,我突然想到我的第一份工作实际上是在为一家失败的航空公司制定破产退出计划,那年我们的协议实习生刚出生。在一阵恐慌后,我又花了一点时间反思我这个拥有近1
  • 又一家数字营销公司入局元宇宙,国内首个艺术元宇宙社区“Meta彼岸”上线

    作者:董宇佳2月28日,智度股份在北京举办产品发布会,宣布其与国光电器联手打造的国内首个艺术元宇宙社区——“Meta彼岸”在VR端和移动端正式公测。从科技巨头布局
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
Top