当前位置：首页 > 元宇宙 > AI

斯坦福揭秘 o1-preview 软肋：数学竞赛题稍作修改，准确率骤降 30%

来源：责编：时间：2025-02-02 18:40:35 184观看

导读斯坦福大学最近的一项研究发现，尽管 o1-preview 在数学、代码等领域能力逆天，但只要对数学竞赛的题目稍修改，模型解答的准确率竟会立刻下降 30%。在数学竞赛的领域里，普特南数学竞赛的威名可谓如雷贯耳。它由 Wil

斯坦福大学最近的一项研究发现，尽管 o1-preview 在数学、代码等领域能力逆天，但只要对数学竞赛的题目稍修改，模型解答的准确率竟会立刻下降 30%。

在数学竞赛的领域里，普特南数学竞赛的威名可谓如雷贯耳。它由 William Lowell Putnam 家族发起，自 1938 年首届举办以来，历经 66 年的岁月沉淀，已然成为全球大学生数学精英们一较高下的顶级赛场。

美国数学会的精心主办，加上哈佛大学、多伦多大学等名校学子的踊跃参与，让这项赛事的桂冠成为无数学子梦寐以求的殊荣，其权威性和挑战性，那是得到了全球学界的公认。

而最近，来自斯坦福的一项研究，却让大家惊掉了下巴：仅仅对题目中的变量、常量等要素稍作修改，大模型「尖子生」o1-preview 模型的准确率就立刻大幅下降，降幅高达 30%！

原文链接：https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

这就好比一位武林高手，平时在熟悉的招式里威风八面，一旦对手换个路数，就立马乱了阵脚。这不禁让人好奇，这些难住最强推理模型的变体题，到底藏着怎样的玄机？

北美最难数学竞赛题「变脸」，AI 有点懵

OpenAI 的 o1-preview 模型自出道以来，凭借超强的推理能力，在各个领域大杀四方。

就拿编程来说，在 Codeforces 编程竞赛这个「高手如云」的赛场上，它的 Elo 评分高达 1807，把 93% 的竞争对手都远远甩在身后，写起代码来又快又准，就像一位经验老道的程序员。

在数学领域更是展现出了惊人的实力。2024 年的美国数学邀请赛（AIME）题目集上，o1-preview 的正确率高达 83%，相当于全美参赛选手 top500 的水平。

医学诊断方面，哈佛医学院和斯坦福大学组成的科研团队曾对 o1-preview 进行过全方位的「考核」，结果令人惊叹：在生成诊断意见、诊断临床推理和管理推理这些关键任务上，它甚至超越了人类医生。面对复杂的病例，它能快速分析症状、病史等信息，并给出准确的诊断建议。

然而，就是这样一个在多领域「开挂」的模型，在面对普特南数学竞赛题的变体时，却仿佛迷失了方向。

在原始题目上，o1-preview 本能达到 41.95% 的准确率，而一旦题目中的变量、常量被修改，准确率就像坐了滑梯一样，直线下降约 30%。

这巨大的反差，背后其实有着深层次的原因。普特南竞赛题本就以超高的难度、独特的出题思路著称，原始题目和变体题目之间，虽然看似只有细微的差别，但这些改变往往涉及到数学概念的深层次运用和逻辑结构的巧妙变换。

o1-preview 模型在训练过程中，可能更多是对常见的数学题型、编程模式、医学案例进行学习和优化，对于这种专门设计、极度刁钻的变体题，缺乏足够的「应对经验」，难以迅速抓住问题的关键，从而导致准确率大幅下滑。

Putnam-AXIOM 基准，AI 数学能力的「试金石」

为了更准确深入地评估 AI 大模型的数学能力，研究团队精心打造了 Putnam-AXIOM Original 基准，收纳了来自历年普特南数学竞赛（Putnam）的 236 个数学问题，从复杂的代数变换到精妙的几何证明，从抽象的数论难题到变幻莫测的组合数学谜题，无一不是对人类智慧极限的挑战。

但这项基准的价值远不止于收录原题，更厉害的是，研究者们设计了一套巧妙的程序化修改机制，可以对问题中的变量、常量等关键要素进行修改，从而生成无限多个全新且难度相当的问题。

比如说，把一个几何问题中的边长数值进行变换，或者改变函数题中的参数取值范围，这些看似微小的调整，却能让整个问题的解法路径大不相同。

而且，这些新生成的题目从未在互联网上出现过，因此也不可能泄露到任何模型的训练数据集中，完全杜绝了 AI 靠「死记硬背」答案来作弊的可能，真正做到了对 AI 数学推理能力的精准探测。

在这个新设计的基准上，研究人员大范围选择了各种模型进行测试，包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o，Anthropic 的旗舰模型 Claude-3.5 Sonnet，Llama、Qwen 的等有影响力的开源模型，以及 Gemma、Mistral、DeepSeek、Numina 等以数学能力闻名的开源模型。

首先，将 Putnam-AXIOM 基准中的 236 道原题输入给各个模型，记录它们的解题时间、推理步骤以及最终答案，算出准确率。接着，把经过程序化修改后的变体题抛给这些模型，同样严格记录解题过程中各项数据。

在原始题目上，o1-preview 模型以 41.95% 的准确率暂居榜首，可一旦切换到变体题，它的准确率就「跳水」到了 11.95% 左右，足足下降了 30 个百分点。

其他模型的准确率滑坡也相当显著，但值得注意的是，Gemma 和 Mistral 系列模型中的某些型号在变体题上的准确率不降反升。

这些数据背后，反映出的问题相当深刻。一方面，当前的 AI 模型，哪怕是最顶尖的，在面对数学问题的灵活变化时适应性较差。它们可能对大规模数据训练出来的固定模式有一定依赖，一旦题目超出了熟悉的套路就会出现显著滑坡。

另一方面，普特南竞赛题的变体设计，精准地击中了 AI 的「软肋」，这也为未来 AI 模型的训练和提升指明了另一种方向。

参考资料：

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

本文来自微信公众号：新智元（ID：AI_era）原文标题：《斯坦福揭秘 o1-preview 软肋！数学竞赛题稍作修改，准确率骤降 30%》

本文链接：http://www.28at.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 软肋：数学竞赛题稍作修改，准确率骤降 30%

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：英特尔 Falcon Shores GPU 止步，战略转向 AI 系统级解决方案

下一篇：突破瓶颈，百度 EICopilot AI 提升企业知识图谱利用率

标签：

热门焦点

元宇宙是投资中国的第五次重大机遇

作者为凯思博投资董事长导语：投资逻辑要来自于人性在社会发展过程中的普遍规律，由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天，中国总共经历了
时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱（Crypto）、房屋（可能建在Minecraft上）和衣物。随着
Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

上周，外媒UploadVR在Quest 2开发者文档中发现了从未被公布过的“身体追踪支持”选项，暗示Meta VR头显或支持全身追踪。而在最近的Instagram问答环节中，Meta Reali
“我没搞懂元宇宙，但一天能赚9w块”

作者：郑宇轩最近几个月，“元宇宙”爆火，除了 Facebook 改名为 Meta 高调进军元宇宙外， BAT 为代表的大厂纷纷着手“元宇宙”新业务。刹那之间，元宇宙成为新风口，除了
2030年的元宇宙产业将会如何发展？

对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新，寻找新的增长点，移动互联网流量空间见顶之际，元宇宙时代红利已然开启。序章：元宇宙应用场景大猜想元宇
韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

财联社|区块链日报28日讯今日《元宇宙新鲜事》有：杭州第十三次党代会报告指出抓紧布局元宇宙等未来产业；韩国科学信息通信技术部宣布投资1.85亿美元建立元宇宙
NFT世界的艺术家名单

我们汇编了以下艺术家的名单，它包括每个艺术家的简短概述。当然，这份名单肯定不全面，还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
NFT领域，我们是否应该遵守版权法

NFTs中最有争议的因素之一是你是否真的 "拥有 "你所购买的艺术品。除此之外，围绕着NFT行业内的版权和知识产权盗窃的问题也同样重要，因为人们很容易误解这些事情
PayPal CEO 的加密语录：加密货币将重新定义金融世界

PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头，已经允许美国和英国的用户交易或持有比特币（BTC）、以太坊（ETH）、比特现金（BCH

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

斯坦福揭秘 o1-preview 软肋：数学竞赛题稍作修改，准确率骤降 30%

元宇宙是投资中国的第五次重大机遇

时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

“我没搞懂元宇宙，但一天能赚9w块”

2030年的元宇宙产业将会如何发展？

韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

NFT世界的艺术家名单

NFT领域，我们是否应该遵守版权法

PayPal CEO 的加密语录：加密货币将重新定义金融世界

最新推荐

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

关于ChatGPT的10点思考

网易音乐、理想申请元宇宙商标被驳回，“啫喱”暂停新用户进入

传腾讯已推出全新XR业务；摩托罗拉正打造5GXR颈戴式计算组件

Meta 呼吁行业合作建立元宇宙网络基础设施

全球十大元宇宙概念游戏

猜你喜欢

热门推荐

相关资讯