当前位置：首页 > 元宇宙 > AI

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

来源：责编：时间：2025-08-14 10:20:17 139观看

导读别急着用 GPT-5 编程了，可能它能力没有你想象中那么强。有人发现，官方测试编程能力用的 SWE-bench Verified，但货不对板，只用了 477 个问题。什么意思呢？我们知道，SWE-bench 是评估模型 / 智能体自主编程能力的一个

别急着用 GPT-5 编程了，可能它能力没有你想象中那么强。

有人发现，官方测试编程能力用的 SWE-bench Verified，但货不对板，只用了 477 个问题。

什么意思呢？我们知道，SWE-bench 是评估模型 / 智能体自主编程能力的一个通用且常用的指标。而 SWE-bench Verified 作为它的子集，本来一共有 500 个问题。

现在相当于 OpenAI 自行省略的那 23 个问题，自己搞了个子集的“子集”来评估模型能力。

而如果这些题默认零分，那么得分实际上是比 Claude Opus 4.1 还要低的。因为现在仅有 0.4% 的差距。

OpenAI 这种自行忽略 23 道题的操作，已经不是第一次了。

早在 GPT-4.1 发布时就信誓旦旦地说，之所以忽略是因为这些问题的解决方案无法在他们的基础设施运行。

离谱了朋友们！要知道 SWE-bench Verified 这个 OpenAI 自己提的，理由也是因为 SWE-bench 无法系统评估模型的编程能力，所以决定自己再提炼一个子集。

现在又因为测试题无法正常运行，所以自行又搞了个子集的“子集”。

本来以为 GPT-5 直播里出现图表错误已经够离谱了，结果现在告诉我这里面的成绩可能还有假？

OpenAI 一直省略 23 个问题

已经开始有网友发现，GPT-5 能力并不比 Claude 4.1 Opus 好多少。

现在来看，这个官方给的结果或许根本没有参考价值。

网友们除了自行忽略部分测试题，“伪造了结果”这一发现外，还发现，他们是将具有最大思维努力的 GPT-5 与没有扩展思维仅靠原始模型输出的 Opus 4.1 进行比较。这种比较实际上没有参考意义。

而他们之所以只使用 477 个问题来测试，理由也跟 GPT-4.1 发布时一样，因为他们内部的基础设施运行不了剩下的 23 个问题。

今年 4 月份发布 GPT-4.1 时，在同一基准仅使用 477 个问题下得得分在 54.6%。

当时官方还指出，如果保守地将这些问题的得分定为 0，那么 54.6% 的得分就变成了 52.1%。即便是这样，这个数值放在当时也是最高的。

而 Anthropic 这边，其实也已经发现了 OpenAI 这个操作。

就在 Claude Opus 4.1 发布公布编程成绩之时，在文章的末尾有这么一句话。

对于 Claude 4 系列模型，他们继续使用相同的简单框架，该框架仅为模型配备了两种工具 —— 一个 Bash 工具和一个通过字符串替换进行文件编辑的工具，并且不再包含 Claude 3.7 Sonnet 中使用的第三个“规划工具”。

并在最后注明：在所有 Claude 4 模型中，他们报告的分数基于完整的 500 个问题。OpenAI 模型的得分基于 477 道问题的子集进行报告。

基准还是 OpenAI 自己提的

如果说，SWE-bench Verified 还是 OpenAI 自己提的基准，那这件事就更离谱了。

这不就相当于自己搬起石头砸自己的脚啦嘛。

当时啊还是因为类似的原因 —— 他们测试发现 SWE-bench 的一些任务可能难以解决甚至无法解决，导致 SWE-bench 无法系统性评估模型的自主编程能力。

于是乎，他们决定与 SWE-bench 的作者合作，决定弄出个新版本，希望能够提供更准确的评估。

他们共同发起了一项人工注释活动，共有 93 位资深程序员参与进来，以筛选 SWE-bench 测试集每个样本，从而获得适当范围的单元测试和明确指定的问题描述。

他们随机抽取了 1699 个样本，然后基于统一标准来进行标注。

比如，问题描述是否明确？每个注释都有一个标签，范围从 [0, 1, 2, 3]，严重程度依次递增。

标签 0 和 1 表示轻微；标签 2 和 3 表示严重，表示样本在某些方面存在缺陷，应予以丢弃。

此外，我们还会评估每个示例的难度，方法是让注释者估算开发人员确定并实现解决方案所需的时间。

最终得到了 500 个经过验证的样本，并且按照难度对数据集进行细分。“简单”子集包含 196 个小于 15 分钟的修复任务，而“困难”子集包含 45 个大于 1 小时的任务。

结果现在这个子集又被 OpenAI 缩减了。

One More Thing

不过，还是有个总榜单或许值得参考，就是那个最原始的 SWE-bench。

在这个榜单中，Claude 4 Opus 还是占据着领先位置。

GPT-5 也已经发过好一阵了，不知道你有没有这样类似的编程体验呀？欢迎在评论区与我们分享。

参考链接：

[1]https://www.swebench.com/

[2]https://openai.com/index/introducing-gpt-5/

[3]https://www.anthropic.com/news/claude-opus-4-1

[4]https://x.com/SemiAnalysis_/status/1955028150217478177

[5]https://x.com/DavidOndrej1/status/1954158161721487482

本文来自微信公众号：量子位（ID：QbitAI），作者：白交，原标题《GPT-5 编程成绩有猫腻！自删 23 道测试题，关键基准还是自己提的》

本文链接：http://www.28at.com/showinfo-45-26086-0.htmlOpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：英特尔升级多显卡 AI 推理，Battlematrix 整体性能最高提升 80%

下一篇：超 98% 参赛者：OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌

标签：

热门焦点

元宇宙里掀起回忆杀？这波虚拟怀旧营销主打一个极限反差

来源：首席品牌官从被称为“元宇宙元年”的2021年开始，几乎所有品牌都在迫不及待地“入驻”元宇宙。而一提及品牌们的元宇宙玩法，相信多数人脑海里首先浮现
如何对一款 NFT 项目进行价值评估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家，因为我相信我们正在见证社会
Niantic与索尼在音频AR领域达成合作；苹果为Apple Park申请形象化商标

今日热点：迪士尼任命新高管负责元宇宙业务；iFixit成为Valve Index VR头显和Steam Deck首家零件销售商；Niantic与索尼达成合作，将为AR游戏《Ingress》带来音频体验；V
NFT 技术将传世之作带入博物馆

意大利四大博物馆已与一个项目合作，该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了科技公司Cincello的国际专
元宇宙风归何处？

元宇宙持续大火，在过去一段时间内，其屡次登上热点，吸引了一波又一波投资者。近期，在“2022中国·金鱼嘴元宇宙生态赋能大会”上，南京建邺区金鱼嘴基金街区宣布计划
Meta 在衰落吗？

扎克伯格已经很久没有出现在公众视野里了，近日，他罕见的接受播客采访，在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点：是的阿伦·达
Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

雅痞哥不知道这人是谁还上新闻，问了助理，解释，相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了，尤其是在最近有消息称人们在元宇宙中购买房地产
盘点9个主流元宇宙平台，你都知道哪些？

随着NFT的持续升温，它也加入了现在的元宇宙浪潮。本文介绍元宇宙的基本概念以及九个最流行的元宇宙NFT平台，如Decentraland、sandbox等。用熟悉的语言学习以太
大厂打造元宇宙平台的业务重心是什么？

知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告，其中提出互联网大厂各自独立布局元宇宙平台。事实上，在2021年的最后一个季度，包括Meta、英伟达、

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

元宇宙里掀起回忆杀？这波虚拟怀旧营销主打一个极限反差

如何对一款 NFT 项目进行价值评估？

Niantic与索尼在音频AR领域达成合作；苹果为Apple Park申请形象化商标

NFT 技术将传世之作带入博物馆

元宇宙风归何处？

Meta 在衰落吗？

Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

盘点9个主流元宇宙平台，你都知道哪些？

大厂打造元宇宙平台的业务重心是什么？

最新推荐

“平均时代”：ChatGPT模仿秀的隐喻

Layer1的新以太坊，更好的以太坊？

NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

参加元宇宙里的招聘会是什么样一种体验？

我们为什么需要Web3，距离Web3的实现还有多远？

76亿美金估值、2022年最具创新力公司，Dapper Labs如何做到？

猜你喜欢

热门推荐

相关资讯