当前位置:首页 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

来源: 责编: 时间:2025-02-05 15:44:00 125观看
导读 DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种

DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。6S428资讯网——每日最新资讯28at.com

最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ 系列模型。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。6S428资讯网——每日最新资讯28at.com

这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。6S428资讯网——每日最新资讯28at.com

“三心二意”是罪魁祸首

这一现象在解决数学竞赛题等更为复杂任务时尤为明显。6S428资讯网——每日最新资讯28at.com

为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等进行了实验。6S428资讯网——每日最新资讯28at.com

下图比较了正确和错误回答中的 token 使用量和思维切换次数。平均来看,类 o1 模型在错误回答中比正确回答多消耗了 225% 的 token,原因是思维切换频率增加了 418%。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

为了深入分析这一现象,研究团队开发了一套评估框架,用于判断被放弃的推理路径是否实际上足以推导出正确答案。6S428资讯网——每日最新资讯28at.com

结果观察到,许多模型在回答开头阶段的思路是正确的,但并未继续深入完成推理。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

超过 70% 的错误回答中至少包含一个正确的思路。此外,在超过 50% 的错误回答中,有 10% 以上的思路是正确的。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

如下图所示的例子,例如,Thought 1 通过识别给定方程类似于以 (0,0) 和 (20,11) 为中心的椭圆方程,启动了正确的解释。将两个表达式设为相等,是寻找满足这两个方程的公共点 (x, y) 的有效方法。6S428资讯网——每日最新资讯28at.com

然而,模型并未专注于深入探索这一合理思路,使用进一步的代数操作和优化技术进行分析,而是频繁切换思路,额外消耗了约 7270 个 token,却依然未能得出正确答案。6S428资讯网——每日最新资讯28at.com

最终,它得出一个缺乏扩展 COT 过程支持的猜测答案。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

基于这些观察,研究人员提出了一个用于量化 Underthinking 程度的指标(Underthinking Metric)。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

这个指标通过测量错误答案中的 token 使用效率来评估推理效率,计算从回答开始到第一个正确思路出现所需的 token 数量与总 token 数量的比值。6S428资讯网——每日最新资讯28at.com

实验结果表明,所有测试的类 o1 模型都存在显著的思维不足问题。模型的准确率与思维不足之间的关系在不同数据集上表现各异。6S428资讯网——每日最新资讯28at.com

在 MATH500-Hard 和 GPQA Diamond 数据集上,性能更优的 DeepSeek-R1-671B 模型在取得更高准确率的同时,其 UT 得分也更高,表明错误回答中存在更多思维不足。6S428资讯网——每日最新资讯28at.com

这意味着,尽管模型整体能力更强,但在不确定时可能生成更长但效率较低的推理过程,可能是因为模型探索了多个错误的推理路径,却未能有效收敛到正确解答。6S428资讯网——每日最新资讯28at.com

相反,在 AIME2024 测试集中,DeepSeek-R1-671B 模型不仅取得了更高的准确率,还表现出较低的 UT 得分,反映出较少的思维不足和更高的 token 效率。6S428资讯网——每日最新资讯28at.com

这表明模型在该任务中,即使未得出正确答案,其推理过程依然保持专注和高效,团队表示这可能是因为模型与 AIME2024 所要求的问题类型和推理过程更好地对齐。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

理解思维不足现象对于开发能够提供正确答案并具备有效推理过程的模型至关重要。6S428资讯网——每日最新资讯28at.com

如何让 AI 学会“一心一意”

如何让模型像优秀学生一样“沉下心来钻研”?6S428资讯网——每日最新资讯28at.com

研究者借鉴了人类考试策略,提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。其原理类似于考试时给自己定规矩:“先专注当前方法,至少尝试 10 分钟再换思路”。6S428资讯网——每日最新资讯28at.com

技术细节上,TIP 会对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,迫使模型在当前路径上探索更久。6S428资讯网——每日最新资讯28at.com

例如,当模型开始写“Alternatively, we can consider…”时,TIP 会通过调整参数(惩罚强度 α 和持续时间 β),抑制这种过早的切换倾向。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

实验结果显示,加入 TIP 能让模型在数学测试上的准确率上升,同时 UT Score 下降,说明既减少了无效切换,又提高了答案质量。6S428资讯网——每日最新资讯28at.com

例如在 AIME2024 数学竞赛测试上,加入 TIP 的 QwQ-32B-Preview 模型准确率从 41.7% 提升至 45.8%,同时 UT Score 从 72.4 降至 68.2。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

并且这种“无痛升级”无需重新训练模型,仅需调整解码策略,展现了其实用价值。6S428资讯网——每日最新资讯28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 几乎同时分享了类似的观察,6S428资讯网——每日最新资讯28at.com

对于 DeepSeek-R1 和所有推理模型,错误的答案更长,而正确的答案要短得多。6S428资讯网——每日最新资讯28at.com

基于此,他们提出一个简单的解决办法,称为“简洁解码”(Laconic decoding)。6S428资讯网——每日最新资讯28at.com

并行运行 5 次模型,从答案中选择 tokens 最少的。6S428资讯网——每日最新资讯28at.com

初步实验结果表示,简洁解码在 AIME2024 测试上能提高 6%-7% 的准确率,比 Consensus Decoding 更好也更快。6S428资讯网——每日最新资讯28at.com

6S428资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/ abs / 2501.18585

参考链接:6S428资讯网——每日最新资讯28at.com

[1]https://x.com/tuzhaopeng/status/18851794121630274066S428资讯网——每日最新资讯28at.com

[2]https://x.com/AlexGDimakis/status/18854478301203620996S428资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风6S428资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek 威胁下,OpenAI 称考虑开源旧 AI 模型

下一篇: 小鹏汽车放大招!5年0息0首付购车,最高贴息5.7万引关注

标签:
  • 热门焦点
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 元宇宙将会如何塑造未来的工作方式?

    科幻小说家尼尔·斯蒂芬森 (Neal Stephenson) 在1992年就创造了“元宇宙”一词,但事实上,在Facebook将其更名为Meta以反映其将这一科幻愿景变为现实的战略重点之
  • 2022 区块链 50 强榜单;垃圾NFT项目的十三个特性

    本期关键字TerraZero在Decentraland完成元宇宙住房抵押贷款;腾讯发行齐白石画作数字藏品;Ripple成为数字欧元协会成员;Gem上线稀有度排名功能;2022 区块链 50 强榜
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 利用元宇宙平台10天收入160万,风口还是虎口?

    美国Meta平台有限公司,也就是原来的脸书公司,9日宣布,公司旗下的虚拟现实应用《地平线世界》正式向美国和加拿大的18岁以上人群开放。这也是目前Meta推出的最具象
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
Top