当前位置：首页 > 元宇宙 > AI

谷歌 Gemini 大逆转？斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

来源：责编：时间：2024-01-08 09:13:36 400观看

导读新智元报道编辑：编辑部【新智元导读】谷歌放出的 Gemini，在对标 GPT 的道路上似乎一直处于劣势，Gemini 真的比 GPT-4 弱吗？最近，斯坦福和 Meta 的学者发文为 Gemini 正名。Gemini 的推理能力，真的比 GPT-4 弱吗？此前

新智元报道

编辑：编辑部

【新智元导读】谷歌放出的 Gemini，在对标 GPT 的道路上似乎一直处于劣势，Gemini 真的比 GPT-4 弱吗？最近，斯坦福和 Meta 的学者发文为 Gemini 正名。

Gemini 的推理能力，真的比 GPT-4 弱吗？

此前，谷歌憋出的重磅复仇神器 Gemini Pro，被发现在常识推理任务中落后于 OpenAI 的 GPT 模型。

之后又有 CMU 发布的论文和实验，证明 Gemini Pro 的很多能力都略微落后于 GPT-3.5 Turbo。

不过最近，斯坦福和 Meta 的学者为 Gemini 洗清了这一「冤屈」。

他们发现，这种基于有限数据集（HellaSWAG）的评估，并不能完全捕捉到 Gemini 真正的常识推理潜力。

论文地址：https://arxiv.org/ abs / 2312.17661

而在新测试集中，Gemini 的推理能力比之前强很多！

Gemini 的真正潜力

斯坦福和 Meta 的研究人员表示，以前的基于有限数据集的评估，对于 Gemini 不够公平。

这次，研究人员设计了需要跨模态整合常识知识的任务，以对 Gemini 在复杂推理任务中的表现进行彻底的评估。

研究人员对 12 个常识推理数据集进行了全面分析，从一般任务到特定领域的任务。

在其中的 4 个 LLM 实验和 2 个 MLLM 实验中，研究者证明了 Gemini 具有目前相当强的常识推理能力。

研究者对于当前流行的四大模型 ——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo 和 GPT-4 Turbo 进行了评估，

他们发现，总体而言，Gemini Pro 的性能和 GPT-3.5 Pro 相当，准确性上落后于 GPT-4 Turbo。

实验

数据集

实验中采用了 12 个与不同类型的常识推理相关的数据集，包括 11 个基于语言的数据集和一个多模态数据集。

基于语言的数据集包括三大类常识推理问题：

1.一般推理和情境推理：CommonsenseQA，侧重于一般常识知识；Cosmos QA，强调语境理解叙事；αNLI，引入演绎推理，包括推断最合理的解释；HellaSWAG，以上下文事件序列的推理为中心。

2.专业推理和知识推理：TRAM，测试关于时间的推理；NumerSense，侧重于数值理解；PIQA，评估物理相互作用知识；QASC，处理与科学相关的推理；RiddleSense，通过谜语挑战创造性思维。

3.社会和道德推理：Social IQa，测试对社会互动的理解；ETHICS，评估道德和伦理推理。

对于多模态数据集（视觉和语言），这里选择 VCR，一个用于认知水平视觉理解的大规模数据集。

对于包含多个任务的 TRAM 和 ETHICS 等数据集，研究人员提取了实验的常识推理部分。

实验中采用准确性作为所有数据集的性能指标。下表给出了数据集的概述以及示例问题。

模型

采用最流行的四个大模型：开源的 Llama-2-70b-chat 和闭源的 Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo。

每个模型都使用相应的 API 密钥进行访问：通过 Google Vertex AI 访问 Gemini，通过 OpenAI API 访问 GPT，通过 DeepInfra 访问 Llama2。

对于多模态数据集，实验中考虑了 GPT-4V（API 中的 gpt-4-vision-preview）和 Gemini Pro Vision（API 中的 gemini-pro-vision）。

考虑到 API 成本和速率的限制，研究人员从每个基于语言的数据集的验证集中随机选择了 200 个示例，从 VCR 数据集的验证集中随机选择了 50 个示例。

对于所有评估，在模型响应生成期间采用贪婪解码（即温度 = 0）。

提示

在评估基于语言的数据集时，研究人员采用了两种提示设置：零样本标准提示（SP），旨在衡量模型在语言环境中的固有常识能力，以及少样本思维链（CoT）提示，用于观察模型性能的潜在增强。

对于多模态数据集，利用零样本标准提示，来评估 MLLM 的端到端视觉常识推理能力。

结果

整体的性能比较结果如下表所示：

从模型的角度来看，GPT-4 Turbo 的平均表现最好。在零样本学习中，它比第二名的 Gemini Pro 高出 7.3%，在少样本学习中优势更大（9.0%）。

而 Gemini Pro 的平均准确率略高于 GPT-3.5 Turbo（0-shot，SP 下高 1.3%，k-shot，CoT 下高 1.5%）。

关于提示方法，CoT 提高了所有数据集的性能，在 CommonsenseQA、TRAM 和 Social IQa 等数据集中有明显的收益。

下表是在多模态 VCR 数据集上的性能比较：

VCR 的三个子任务分别为：Q → A，根据视觉上下文生成问题的答案；QA → R，要求模型为给定的答案提供基本原理；Q → AR，既要回答问题，又要用适当的理由来证明回答的合理性。

将 11 个基于语言的数据集分为三组，在图 1 中展示了每组中每种设置的性能。

研究结果表明，GPT-4 Turbo 在所有类别的性能方面始终领先。

Gemini Pro 和 GPT-3.5 Turbo 的性能相当；不过，Gemini Pro 在三个类别中的两个类别中，略胜于 GPT-3.5 Turbo。

总体而言，所有模型在处理社会和道德推理数据集方面，都表现出强大的能力。

然而，它们在一般推理和语境推理任务上的表现，存在显著差异。

这也表明，它们对更广泛的常识原则，及其在不同背景下的应用理解，存在潜在差距。

而在专业和知识推理类别，特别是在时间和基于谜语的挑战领域，模型在处理复杂时间序列、破译谜语所需的抽象和创造性思维能力上，都表现出了缺陷。

关于多模态数据集，图 2 详细介绍了 GPT-4V 和 GeminiPro Vision 在不同问题类型上的性能比较。

我们可以看到，在最后一个关于时间类别的问题上，GeminiPro Vision 实现了反超。

MLLM 的推理正当性

为了评估 MLLM 的推理能力，尤其是不仅提供正确答案，还能就常识问题提供合理且基于上下文推理的能力，研究者采用了系统抽样方法。

对于评估四个 LLM 的 11 个基于语言的数据集，研究者随机选择了 30 个回答正确的问题，和 30 个回答错误的问题。

如果数据集提供的错误答案少于 30 个，研究者就会包含进所有可用的错误答案，以确保分析的全面性。

选择这些问题后，他们会让每个模型解释：「问题答案背后的基本原理是什么?」然后手动检查模型提供的推理过程，并根据其逻辑合理性和与问题的相关性被判为 True 或 False。

图 3 显示，GPT-4 Turbo 在正确和错误的答案上，都显示出先进的推理机制，即使最终答案不准确，它也有保持逻辑连贯的能力。

另外，Gemini Pro 也表现出了值得称赞的推理能力，提供了全面的常识推理方法。

下图展示了 Gemini Pro 和 GPT-3.5 的两个真实示例，展现了正确答案和正确理由，以及错误答案和错误理由的情况。

示例问题来自 QASC 数据集，红色粗体为正确答案。在上图中，Gemini Pro 表现出有条不紊的推理，仔细考虑所有选项以得出最合乎逻辑的结论。

相反，由于 GPT-3.5 Turbo 对非常规逻辑的倾向，导致了富有想象力但不正确的答案。

这表明不同模型应对常识推理任务的不同策略，有自己的独特能力和局限性。

Gemini Pro 的常识推理能力一般常识（CommonsenseQA)

在使用 CommonsenseQA 数据集的一般常识评估中，有这样一道示例问题：「当你是陌生人时，人们会怎样?」

A.火车 B.奇怪 C.人类 D.愚蠢 E.危险

Gemini Pro 选择了 B。

它的推理过程也值得注意：它认识到，虽然所有选项都和「陌生人」的概念相关，但只有「奇怪」准确概括了问题的中立和开放性本质。

这个选择，凸显出了 Gemini Pro 解释和应用一般常识知识的能力。

时间（TRAM）

TRAM 数据集的时间常识评估中的示例问题：「他还承诺会来找他。」

他需要多长时间才能「来到他身边」？

A.100 年 B.一分钟内 C.几个小时

由于缺乏足够的背景信息，特别是关于所涉及的身份和「来到」的含义，Gemini Pro 无法提供明确的答案。

这说明了，模型需要依赖特定的上下文信息，来做出准确的时间判断。

在现实世界的信息传播中，模糊或不完整的信息，也会造成这种局限性。

社交 (Social IQa)

在使用 Social IQa 数据集评估 GeminiPro 在社会常识推理方面的表现时，出现了一个有趣的场景: 人们一直欺负在 Sasha，Sasha 报复了回去，接下来人们会做什么？

A.按 Sasha 说的去做 B.报仇 C.逃离 Sasha

正确答案是 C，但 Gemini Pro 的选择却显得很有洞察力。

它选择了 B，理由是 Sasha 的行动很可能点燃了人们复仇的欲望。

这一回应表明，Gemini Pro 对于社会动态和情感动机有了细致入微的理解。

Visual（VCR）

在 VCR 数据集中，研究者分析了 Gemini Pro Vision 对涉及人身安全和潜在危险场景的响应。

如果此时 4 号推了 3 号，会发生什么？

Gemini Pro Vision 回答：3 号会掉下悬崖，危及生命。

这个结果表明，Gemini Pro Vision 已经能够做出视觉常识推理，分析视觉场景并预测这些场景中动作的潜在后果。

这表明模型已经掌握了空间关系和物理后果，具备了类似人类认知的复杂视觉信息能力。

作者介绍

Yuqing Wang 目前是斯坦福大学的博士后研究员。

此前，她在明尼苏达大学获得学士学位，在加利福尼亚大学圣芭芭拉分校获得博士学位。

Yun Zhao 目前是 Meta 的研究员，研究方向是机器学习（包括深度学习与强化学习）的应用、人工智能与数据挖掘。

此前，他在清华大学获得硕士学位，并且同样在加利福尼亚大学圣芭芭拉分校获得博士学位。

参考资料：

https://arxiv.org/abs/2312.17661

本文来自微信公众号：新智元（ID：AI_era）

本文链接：http://www.28at.com/showinfo-45-3142-0.html谷歌 Gemini 大逆转？斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：微软移动端 Edge 浏览器名称变更，加入“AI”字样

下一篇： “稚晖君”出走华为创业项目新进展：“北大-智元机器人联合实验室”成立

标签：

热门焦点

拯救XR，苹果力不从心

来源 | 光子星球撰文 | 文烨豪编辑 | 吴先之苹果终于呈上了它的“答卷”。北京时间6月6日凌晨，苹果2023年全球开发者大会（WWDC）如期举行。作为苹果CEO库克口中&ld
文心一言排名垫底，却成为百度业绩增长杠杆

文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后，百度公司热度大幅提升，文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日，百度（NASDAQ：BIDU/09888.HK）公布了
聚焦虚拟数字人技术，这三大商机要抓住！

关于虚拟数字人，企业可以从三个方面入局，分别是ToG（To Government，面向政府），即为数字政府和数字城市提供支持服务；ToB（To Business，面向企业），即为企业提供虚拟员工解决方案；ToC（To Cons
蓝标亏钱、Meta裁员：天下秀还值得砸钱元宇宙吗？

日前，天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示，2022年天下秀实现营收41.29亿元，同比下滑8.48%；归母净利润1.8亿元，同比下滑49.2%，几乎出现了盈利腰斩的态势
游戏玩家才是最“元宇宙”的

01元宇宙的概念，最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界，又与现实世界平行、相互影响，并且始终在线的虚拟世
完美世界被元宇宙“拒之门外”

春节期间，游戏是消磨时间最好的方式，完美世界的《幻塔》作为选择的首要目标，倒不是因为它的吸引力有多大，纯粹是广大网友的吐槽。继《原神》之后，进击元宇宙的游戏
元宇宙时代NFT的价值衡量

有人认为NFT的高昂价格只是炒作的产物，并不具有其对等的价值，但其实NFT并不是空中楼阁，只是区块链数字分类账中的一种形式。诚然，目前的NFT仍处于灰色地带，相关的法
NFT：新骗局的狩猎场

骗局的自动化需要更好的防御，从数字身份开始。前几天我在OpenSea上购买了一个NFT，是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画，来自她的 "原作 "收
3月份值得关注的5个NFT项目

2021年，我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来，有些艺术家们已经成为了NFT的超级明星，在几个月的时间

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

谷歌 Gemini 大逆转？斯坦福 Meta 华人证明其推理性能强于 GPT-3.5

拯救XR，苹果力不从心

文心一言排名垫底，却成为百度业绩增长杠杆

聚焦虚拟数字人技术，这三大商机要抓住！

蓝标亏钱、Meta裁员：天下秀还值得砸钱元宇宙吗？

游戏玩家才是最“元宇宙”的

完美世界被元宇宙“拒之门外”

元宇宙时代NFT的价值衡量

NFT：新骗局的狩猎场

3月份值得关注的5个NFT项目

最新推荐

风口已至，多领域平台融入社交元素！

在数字世界再造世界杯，元宇宙体育正变得越来越丰满

从冰墩墩到无聊猿，解秘未来IP爆款的模因

吸金31亿美元，谁在催火2021年的链游？

独立故事片“Calladita”将使用 NFT 筹集资金

艺术创作者能否永久收取版税？

猜你喜欢

热门推荐

相关资讯