当前位置:首页 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

来源: 责编: 时间:2025-02-05 15:44:00 193观看
导读 DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。Isk28资讯网——每日最新资讯28at.com

最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。Isk28资讯网——每日最新资讯28at.com

这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。Isk28资讯网——每日最新资讯28at.com

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。Isk28资讯网——每日最新资讯28at.com

为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。Isk28资讯网——每日最新资讯28at.com

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看,类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token,原因是思维切换频率增加了 418%。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。Isk28资讯网——每日最新资讯28at.com

结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

超过 70% 的错误回答中至少包含一个正确的思路。此外,在超过 50% 的错误回答中,有 10% 以上的思路是正确的。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

如下图所示的例子,例如,Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点 (x, y) 的有效方法。Isk28资讯网——每日最新资讯28at.com

然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约 7270 个 token,却依然未能得出正确答案。Isk28资讯网——每日最新资讯28at.com

最终,它得出一个缺乏扩展 COT 过程支持的猜测答案。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

基于这些观察,研究人员提出了一个用于量化 Underthinking 程度的指标(Underthinking Metric)。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

这个指标通过测量错误答案中的 token 使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。Isk28资讯网——每日最新资讯28at.com

实验结果表明,所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。Isk28资讯网——每日最新资讯28at.com

在 MATH500-Hard 和 GPQA Diamond 数据集上,性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时,其 UT 得分也更高,表明错误回答中存在更多思维不足。Isk28资讯网——每日最新资讯28at.com

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。Isk28资讯网——每日最新资讯28at.com

相反,在 AIME2024 测试集中,DeepSeek-R1-671B 模型不仅取得了更高的准确率,还表现出较低的 UT 得分,反映出较少的思维不足和更高的 token 效率。Isk28资讯网——每日最新资讯28at.com

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。Isk28资讯网——每日最新资讯28at.com

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”?Isk28资讯网——每日最新资讯28at.com

研究者借鉴了人类考试策略,提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。其原理类似于考试时给自己定规矩:“先专注当前方法,至少尝试 10 分钟再换思路”。Isk28资讯网——每日最新资讯28at.com

技术细节上,TIP 会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。Isk28资讯网——每日最新资讯28at.com

例如,当模型开始写“Alternatively, we can consider…”时,TIP 会通过调整参数(惩罚强度 α 和持续时间 β),抑制这种过早的切换倾向。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

实验结果显示,加入 TIP 能让模型在数学测试上的准确率上升,同时 UT Score 下降,说明既减少了无效切换,又提高了答案质量。Isk28资讯网——每日最新资讯28at.com

例如在 AIME2024 数学竞赛测试上,加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%,同时 UT Score 从 72.4 降至 68.2。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

并且这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。Isk28资讯网——每日最新资讯28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察,Isk28资讯网——每日最新资讯28at.com

对于 DeepSeek-R1 和所有推理模型,错误的答案更长,而正确的答案要短得多。Isk28资讯网——每日最新资讯28at.com

基于此,他们提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。Isk28资讯网——每日最新资讯28at.com

并行运行 5 次模型,从答案中选择 tokens 最少的。Isk28资讯网——每日最新资讯28at.com

初步实验结果表示,简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率,比 Consensus Decoding 更好也更快。Isk28资讯网——每日最新资讯28at.com

Isk28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2501.18585

参考链接:Isk28资讯网——每日最新资讯28at.com

[1]https://x.com/tuzhaopeng/status/1885179412163027406Isk28资讯网——每日最新资讯28at.com

[2]https://x.com/AlexGDimakis/status/1885447830120362099Isk28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风Isk28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek 威胁下,OpenAI 称考虑开源旧 AI 模型

下一篇: 小鹏汽车放大招!5年0息0首付购车,最高贴息5.7万引关注

标签:
  • 热门焦点
  • 元宇宙里掀起回忆杀?这波虚拟怀旧营销主打一个极限反差

    来源:首席品牌官从被称为“元宇宙元年”的2021年开始,几乎所有品牌都在迫不及待地“入驻”元宇宙。而一提及品牌们的元宇宙玩法,相信多数人脑海里首先浮现
  • 林俊杰、余文乐等明星相继入局,元宇宙虚拟土地究竟有何魔力?

    上周的元宇宙和明星圈因为一则“林俊杰在推特上宣布持有Decentraland元宇宙虚拟地块”的新闻而备受关注,该新闻一方面在娱乐圈引起了吃瓜群众的好奇,另一方面在
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 银保监会:打击以“元宇宙”为名义的违法行为

    今日,银保监会发布《关于防范以“元宇宙”名义进行非法集资的风险提示》,全文如下:近期,一些不法分子蹭热点,以“元宇宙投资项目”“元宇宙链游”等名目吸收资金,涉
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 如何在元宇宙中建立品牌忠诚度

    Snoop Dogg、耐克、苏富比和普华永道都有什么共同点?他们都投资于元宇宙的房地产。除了我们在屏幕上看到的二维世界--手机、笔记本电脑、台式机或iPad--他们决
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
Top