当前位置：首页 > 元宇宙 > AI

AI“推理”模型兴起，基准测试成本飙升

来源：责编：时间：2025-04-15 07:12:14 213观看

导读 4 月 13 日消息，随着人工智能（AI）技术的不断发展，所谓的“推理”AI 模型成为了研究热点。这些模型能够像人类一样逐步思考问题，在特定领域，如物理学中，被认为比非推理模型能力更强。然而，这种优势却伴随着高昂的测试

4 月 13 日消息，随着人工智能（AI）技术的不断发展，所谓的“推理”AI 模型成为了研究热点。这些模型能够像人类一样逐步思考问题，在特定领域，如物理学中，被认为比非推理模型能力更强。然而，这种优势却伴随着高昂的测试成本，使得独立验证这些模型的能力变得困难重重。

据第三方 AI 测试机构“人工智能分析”（Artificial Analysis）提供的数据显示，评估 OpenAI 的 o1 推理模型在七个流行的 AI 基准测试（包括 MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500）中的表现，需要花费 2767.05 美元（注：现汇率约合 20191 元人民币）。而评估 Anthropic 的 Claude 3.7 Sonnet 这一“混合”推理模型的成本为 1485.35 美元（现汇率约合 10839 元人民币），相比之下，测试 OpenAI 的 o3-mini-high 则只需 344.59 美元（现汇率约合 2514 元人民币）。尽管有些推理模型的测试成本相对较低，例如评估 OpenAI 的 o1-mini 只需 141.22 美元（现汇率约合 1030 元人民币），但从整体来看，推理模型的测试成本仍然比较高昂。截至目前，“人工智能分析”已经花费了约 5200 美元（现汇率约合 37945 元人民币）来评估大约十几种推理模型，这一金额接近该公司分析超过 80 种非推理模型所花费的 2400 美元的两倍。

OpenAI 在 2024 年 5 月发布的非推理 GPT-4o 模型，其评估成本仅为 108.85 美元，而 Claude 3.6 Sonnet（Claude 3.7 Sonnet 的非推理前身）的评估成本为 81.41 美元。“人工智能分析”联合创始人乔治・卡梅伦（George Cameron）向 TechCrunch 表示，随着越来越多的 AI 实验室开发推理模型，该组织计划增加其测试预算。“在‘人工智能分析’，我们每月进行数百次评估，并为此投入了相当可观的预算，”卡梅伦说，“我们预计随着模型的频繁发布，这一支出将会增加。”

“人工智能分析”并非唯一面临 AI 测试成本上升的机构。AI 初创公司“通用推理”（General Reasoning）的首席执行官罗斯・泰勒（Ross Taylor）表示，他最近花费了 580 美元用大约 3700 个独特的提示词评估了 Claude 3.7 Sonnet。泰勒估计，仅对 MMLU Pro（一套旨在评估模型语言理解能力的问题集）进行一次完整的测试，成本就会超过 1800 美元。“我们正在迈向一个世界，在这个世界里，一个实验室在一项基准测试中报告 x% 的结果，而他们在其中花费了 y 数量的计算资源，但学者们的资源远远小于 y，”泰勒在 X 上最近的一篇帖子中写道，“没有人能够复制这些结果。”

那么，为什么推理模型的测试成本如此之高呢？主要原因在于它们生成了大量的 token。token 代表原始文本的片段，例如将单词“fantastic”拆分为音节“fan”、“tas”和“tic”。据“人工智能分析”称，在该公司的基准测试中，OpenAI 的 o1 生成了超过 4400 万个 token，大约是 GPT-4o 生成量的八倍。大多数 AI 公司都是按 token 收费的，因此成本很容易就会累积起来。

此外，现代基准测试通常会从模型中引出大量 token，因为它们包含涉及复杂、多步骤任务的问题。Epoch AI 的高级研究员让-斯坦尼斯拉斯・德内恩（Jean-Stanislas Denain）表示，这是因为今天的基准测试更加复杂，尽管每个基准测试的问题数量总体有所减少。“它们通常试图评估模型执行现实世界任务的能力，例如编写和执行代码、浏览互联网以及使用计算机，”德内恩称。德内恩还指出，最昂贵的模型随着时间的推移，每个 token 的成本也在增加。例如，Anthropic 在 2024 年 5 月发布的 Claude 3 Opus 是当时最昂贵的模型，每百万输出 token 的成本为 75 美元。而 OpenAI 今年早些时候推出的 GPT-4.5 和 o1-pro，每百万输出 token 的成本分别为 150 美元和 600 美元。

“尽管随着时间的推移，模型的性能有所提高，达到给定性能水平的成本也确实大幅下降，但如果你想在任何特定时间评估最大最好的模型，你仍然需要支付更多，”德内恩说。许多 AI 实验室，包括 OpenAI，为测试目的向基准测试组织提供免费或补贴的模型访问权限。但一些专家表示，这会影响测试结果的公正性 —— 即使没有操纵的证据，AI 实验室的参与本身就可能损害评估评分的完整性。

本文链接：http://www.28at.com/showinfo-45-12237-0.htmlAI“推理”模型兴起，基准测试成本飙升

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：苹果AI发展滞后真相：预算削减与内部斗争成主因

下一篇：美国教育部长出席峰会闹乌龙：多次将 AI 误称为 A1

标签：

热门焦点

元宇宙终究没火过两年

来源：传播体操在ChatGPT快速破圈的同时，元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力，但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
清华、北大等86所高校布局元宇宙，是风口还是噱头？

作者：徐赐豪来源：区块链日报据全国高校人工智能与大数据创新联盟元宇宙专委会不完全统计，截至2023年7月，全国共有86所高校战略布局元宇宙领域，其中本科院校73所，高职专科院校13所
一份全面清单：Web3行业高薪酬的13种工作

来源：区块链骑士这可能会让许多人感到震惊，但除了成为开发人员之外，Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域，换句话说，它由许多个在不同领域中具有不同
新周期，谁在坚守窄门？

来源：锦缎今日的投资者恐怕已经忘记了，在OpenAI创造出ChatGPT这一杀器的前夜，生成式AI也曾经是一道窄门，窄到连马斯克都差点失去了信心。在当时的舆论眼中，AGI的道路不够性感，不够
【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

虚拟数字人行业未来的主要驱动力包括：用户代际变化，新一代消费者对内容消费和虚拟世界更为渴求；虚拟数字人相关技术门槛相对降低，成本有所回落；资本热度上升，受Metav
美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

No.1 俄罗斯财政部长: 在俄罗斯禁止比特币就如禁止互联网一样2月16日消息，俄罗斯财政部长安东·西卢安诺夫（Anton Siluanov）表示，在俄罗斯禁止加密货币就跟禁止互
Meta公布AI概念“Builder Bot”；银保监发布元宇宙相关风险提示

概述自从Meta在2月初公布财报后，其负责元宇宙的核心部门Reality Labs表现不佳，净亏损超100亿美元，随后股价断崖式下跌。如今，Meta开始继续发力元宇宙，想要挽回颓势，
美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

今天，Billboard宣布与流行的NFT头像集World of Women（WoW）建立新的伙伴关系，向NFT生态系统又迈进了一步。在这次合作中，WoW的创建者Yam Karkai将帮助这个音乐行业巨
音乐家如何利用NFTs来提高歌迷参与度

"音乐是一种语言，不以特定的文字说话。它用情感说话，如果它在骨子里，它就在骨子里。" - Keith Richards音乐激励着我们，使我们流泪，使我们充满狂喜，并抚慰我们的灵魂

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

AI“推理”模型兴起，基准测试成本飙升

元宇宙终究没火过两年

清华、北大等86所高校布局元宇宙，是风口还是噱头？

一份全面清单：Web3行业高薪酬的13种工作

新周期，谁在坚守窄门？

【量子位】虚拟数字人深度产业报告 | 元宇宙Meta洞见

美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

Meta公布AI概念“Builder Bot”；银保监发布元宇宙相关风险提示

美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

音乐家如何利用NFTs来提高歌迷参与度

最新推荐

“平均时代”：ChatGPT模仿秀的隐喻

汽车元宇宙，是概念还是未来？

一个视频涨粉百万，柳夜熙们能成为元宇宙的“船票”吗？

Staking 收益翻倍？

这场虚拟发布会，当面“造假”！

76亿美金估值、2022年最具创新力公司，Dapper Labs如何做到？

猜你喜欢

热门推荐

相关资讯