当前位置:首页 > 元宇宙 > AI

斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30%

来源: 责编: 时间:2025-02-02 18:40:35 117观看
导读 斯坦福大学最近的一项研究发现,尽管 o1-preview 在数学、代码等领域能力逆天,但只要对数学竞赛的题目稍修改,模型解答的准确率竟会立刻下降 30%。在数学竞赛的领域里,普特南数学竞赛的威名可谓如雷贯耳。它由 Wil

斯坦福大学最近的一项研究发现,尽管 o1-preview 在数学、代码等领域能力逆天,但只要对数学竞赛的题目稍修改,模型解答的准确率竟会立刻下降 30%。UUn28资讯网——每日最新资讯28at.com

在数学竞赛的领域里,普特南数学竞赛的威名可谓如雷贯耳。它由 William Lowell Putnam 家族发起,自 1938 年首届举办以来,历经 66 年的岁月沉淀,已然成为全球大学生数学精英们一较高下的顶级赛场。UUn28资讯网——每日最新资讯28at.com

美国数学会的精心主办,加上哈佛大学、多伦多大学等名校学子的踊跃参与,让这项赛事的桂冠成为无数学子梦寐以求的殊荣,其权威性和挑战性,那是得到了全球学界的公认。UUn28资讯网——每日最新资讯28at.com

而最近,来自斯坦福的一项研究,却让大家惊掉了下巴:仅仅对题目中的变量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的准确率就立刻大幅下降,降幅高达 30%!UUn28资讯网——每日最新资讯28at.com

UUn28资讯网——每日最新资讯28at.com

原文链接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfUUn28资讯网——每日最新资讯28at.com

这就好比一位武林高手,平时在熟悉的招式里威风八面,一旦对手换个路数,就立马乱了阵脚。这不禁让人好奇,这些难住最强推理模型的变体题,到底藏着怎样的玄机?UUn28资讯网——每日最新资讯28at.com

北美最难数学竞赛题「变脸」,AI 有点懵

OpenAI 的 o1-preview 模型自出道以来,凭借超强的推理能力,在各个领域大杀四方。UUn28资讯网——每日最新资讯28at.com

就拿编程来说,在 Codeforces 编程竞赛这个「高手如云」的赛场上,它的 Elo 评分高达 1807,把 93% 的竞争对手都远远甩在身后,写起代码来又快又准,就像一位经验老道的程序员。UUn28资讯网——每日最新资讯28at.com

在数学领域更是展现出了惊人的实力。2024 年的美国数学邀请赛(AIME)题目集上,o1-preview 的正确率高达 83%,相当于全美参赛选手 top500 的水平。UUn28资讯网——每日最新资讯28at.com

UUn28资讯网——每日最新资讯28at.com

医学诊断方面,哈佛医学院和斯坦福大学组成的科研团队曾对 o1-preview 进行过全方位的 「考核」,结果令人惊叹:在生成诊断意见、诊断临床推理和管理推理这些关键任务上,它甚至超越了人类医生。面对复杂的病例,它能快速分析症状、病史等信息,并给出准确的诊断建议。UUn28资讯网——每日最新资讯28at.com

然而,就是这样一个在多领域「开挂」的模型,在面对普特南数学竞赛题的变体时,却仿佛迷失了方向。UUn28资讯网——每日最新资讯28at.com

在原始题目上,o1-preview 本能达到 41.95% 的准确率,而一旦题目中的变量、常量被修改,准确率就像坐了滑梯一样,直线下降约 30%。UUn28资讯网——每日最新资讯28at.com

UUn28资讯网——每日最新资讯28at.com

这巨大的反差,背后其实有着深层次的原因。普特南竞赛题本就以超高的难度、独特的出题思路著称,原始题目和变体题目之间,虽然看似只有细微的差别,但这些改变往往涉及到数学概念的深层次运用和逻辑结构的巧妙变换。UUn28资讯网——每日最新资讯28at.com

o1-preview 模型在训练过程中,可能更多是对常见的数学题型、编程模式、医学案例进行学习和优化,对于这种专门设计、极度刁钻的变体题,缺乏足够的「应对经验」,难以迅速抓住问题的关键,从而导致准确率大幅下滑。UUn28资讯网——每日最新资讯28at.com

Putnam-AXIOM 基准,AI 数学能力的「试金石」

为了更准确深入地评估 AI 大模型的数学能力,研究团队精心打造了 Putnam-AXIOM Original 基准,收纳了来自历年普特南数学竞赛(Putnam)的 236 个数学问题,从复杂的代数变换到精妙的几何证明,从抽象的数论难题到变幻莫测的组合数学谜题,无一不是对人类智慧极限的挑战。UUn28资讯网——每日最新资讯28at.com

但这项基准的价值远不止于收录原题,更厉害的是,研究者们设计了一套巧妙的程序化修改机制,可以对问题中的变量、常量等关键要素进行修改,从而生成无限多个全新且难度相当的问题。UUn28资讯网——每日最新资讯28at.com

UUn28资讯网——每日最新资讯28at.com

比如说,把一个几何问题中的边长数值进行变换,或者改变函数题中的参数取值范围,这些看似微小的调整,却能让整个问题的解法路径大不相同。UUn28资讯网——每日最新资讯28at.com

而且,这些新生成的题目从未在互联网上出现过,因此也不可能泄露到任何模型的训练数据集中,完全杜绝了 AI 靠 「死记硬背」答案来作弊的可能,真正做到了对 AI 数学推理能力的精准探测。UUn28资讯网——每日最新资讯28at.com

在这个新设计的基准上,研究人员大范围选择了各种模型进行测试,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗舰模型 Claude-3.5 Sonnet,Llama、Qwen 的等有影响力的开源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以数学能力闻名的开源模型。UUn28资讯网——每日最新资讯28at.com

首先,将 Putnam-AXIOM 基准中的 236 道原题输入给各个模型,记录它们的解题时间、推理步骤以及最终答案,算出准确率。接着,把经过程序化修改后的变体题抛给这些模型,同样严格记录解题过程中各项数据。UUn28资讯网——每日最新资讯28at.com

在原始题目上,o1-preview 模型以 41.95% 的准确率暂居榜首,可一旦切换到变体题,它的准确率就「跳水」到了 11.95% 左右,足足下降了 30 个百分点。UUn28资讯网——每日最新资讯28at.com

其他模型的准确率滑坡也相当显著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型号在变体题上的准确率不降反升。UUn28资讯网——每日最新资讯28at.com

UUn28资讯网——每日最新资讯28at.com

这些数据背后,反映出的问题相当深刻。一方面,当前的 AI 模型,哪怕是最顶尖的,在面对数学问题的灵活变化时适应性较差。它们可能对大规模数据训练出来的固定模式有一定依赖,一旦题目超出了熟悉的套路就会出现显著滑坡。UUn28资讯网——每日最新资讯28at.com

另一方面,普特南竞赛题的变体设计,精准地击中了 AI 的「软肋」,这也为未来 AI 模型的训练和提升指明了另一种方向。UUn28资讯网——每日最新资讯28at.com

参考资料:UUn28资讯网——每日最新资讯28at.com

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfUUn28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era)原文标题:《斯坦福揭秘 o1-preview 软肋!数学竞赛题稍作修改,准确率骤降 30%》UUn28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 软肋:数学竞赛题稍作修改,准确率骤降 30%

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 英特尔 Falcon Shores GPU 止步,战略转向 AI 系统级解决方案

下一篇: 突破瓶颈,百度 EICopilot AI 提升企业知识图谱利用率

标签:
  • 热门焦点
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词,“得不到的永远在骚动”,这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起,使得头部游戏大厂感受
  • 从冰墩墩到无聊猿,解秘未来IP爆款的模因

    打造IP,是建设元宇宙的刚需。NFT能直接让IP的价值变现;虚拟人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一个个品牌IP星球,考验的是IP世界观的建设能力。如果说在
  • 从英式拍到荷兰拍,看传统金融拍卖玩法如何玩转NFT市场交易

    作者:鲁拍卖是一种从古至今的商业活动。从古代的典当到现代的拍卖市场、我们熟知的拍卖行,以及知名街头艺术家Bansky名画拍卖成功后,竟自毁粉碎,现价值又翻倍的拍
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为
Top