当前位置：首页 > 元宇宙 > AI

直逼 DeepSeek-R1-32B，UC 伯克利等开源全新 SOTA 推理模型 OpenThinker-32B

来源：责编：时间：2025-02-15 15:48:31 174观看

导读 32B 推理模型，仅用 1/8 数据，与同尺寸 DeepSeek-R1 打成平手。就在刚刚，来自斯坦福、UC 伯克利、华盛顿大学等机构联手发布了一款 SOTA 级推理模型 ——OpenThinker-32B，并同时开源了高达 114k 的训练数据。项目

32B 推理模型，仅用 1/8 数据，与同尺寸 DeepSeek-R1 打成平手。

就在刚刚，来自斯坦福、UC 伯克利、华盛顿大学等机构联手发布了一款 SOTA 级推理模型 ——OpenThinker-32B，并同时开源了高达 114k 的训练数据。

项目主页：https://www.open-thoughts.ai/blog/scale

Hugging Face：https://huggingface.co/open-thoughts/OpenThinker-32B

数据集：https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k

团队发现：采用经 DeepSeek-R1 验证标注（基于 R1 蒸馏）的大规模优质数据集，便可训练出 SOTA 的推理模型。

具体方法，就是通过数据规模化、推理过程验证以及模型规模扩展。

由此得到的 OpenThinker-32B，在数学、代码和科学等多个基准测试中，OpenThinker-32B 性能直接碾压了李飞飞团队 s1 和 s1.1 模型，直逼 R1-Distill-32B。

值得一提的是，相比于使用了 800k 数据（包含 600k 个推理样本）的 R1-Distill，OpenThinker-32B 仅用了 114k 数据，就能拿下几乎同等的优异成绩。

结果均通过开源评估框架 Evalchemy 计算得出

除此之外，OpenThinker-32 还把模型权重、数据集、数据生成代码、训练代码上，全部都给公开了！

数据策展

研究人员使用了与之前训练 OpenThinker-7B 模型相同的 OpenThoughts-114k 数据集来训练 OpenThinker-32B。

他们利用 DeepSeek-R1 模型，收集了精心挑选的 17.3 万个问题的推理过程和解答尝试。然后将这些原始数据作为 OpenThoughts-Unverfied-173k 数据集公开发布。

整个流程的最后一步是，如果推理过程未能通过验证，就过滤掉相应的数据样本。

下图可视化地展示了整个过程。

研究团队首先输入源数据或问题提示，这些内容可以来自不同的领域和平台，如 BAAI / TACO、DeepMind、Python 提交等，涉及代码、谜题、科学和数学等多个方面。

接着这些多元的输入会进入核心的处理模块 ——DeepSeek-R1，在这里对数据进行分析与处理。这些问题会被分成三个方面，分别是：科学类问题、数学与谜题和代码。

有些结果不需要验证，可能是简单的分析或直接输出。对于一些需要深入验证的内容，利用大语言模型（LLM）采用与 GT（Ground Truth）对比的方式进行评判。如果是代码，执行代码并进行单元测试，确保代码的正确性和有效性。

最后能将不同方向的结果结合起来，生成开放的思考和更为综合的解决方案。

研究团队更新了最终的 OpenThoughts-114k 数据集，加入了一个名为「metadata」的配置，其中包含了一些用于数据集构建的额外列：

problem

ground_truth_solution

test_cases (code only)

starter_code (code only)

DeepSeek_reasoning

DeepSeek_solution

domain

source

这些额外的元数据将使得这个数据集更容易用于新的场景，例如数据过滤、领域切换、验证检查以及更改推理过程的模板。

这些额外的元数据将得使该数据集使用起来更加容易，仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。

load_dataset("open-thoughts/OpenThoughts-114k","metadata",split="train")

研究团队表示，他们期待看到社区利用这些问题和标准答案，在 OpenThinker 模型上进行强化学习（RL）的研究。DeepScaleR 已经证明，规模较小时，这种方法效果特别好。

验证

为了得到最终的 OpenThoughts-114k 数据集，研究团队对答案进行了验证，并剔除了不正确的回答。

如下表所示，保留那些未通过验证的推理过程可能会损害性能，尽管未经验证的模型与其他 32B 推理模型相比仍然表现良好。

验证的作用在于，在扩大训练提示集的多样性和规模的同时，保持 R1 注释的质量。另一方面，未经验证的数据可以更容易地扩展，因此也值得进一步探索。

对于代码问题，他们通过对照已有的测试用例来验证解答尝试，从而完成推理过程的验证。

受到代码执行过程中所面临挑战的启发，他们在 Curator 中实现了一个代码执行框架，使用户能够大规模、安全地执行代码，并对照预期输出进行验证。

对于数学问题，研究团队使用一个 LLM（大语言模型）评判器来进行验证，它会同时接收标准答案和 DeepSeek-R1 的解答尝试。

结果发现，在数据生成过程中，使用 LLM 评判器而不是更严格的解析引擎（Math-Verify）进行验证，可以获得更高的有效数据率，并能训练出性能更好的下游模型。

训练

研究团队使用 LLaMa-Factory 对 Qwen2.5-32B-Instruct 在 OpenThoughts-114k 数据集上进行了三轮微调，上下文长度为 16k。完整训练配置可在 GitHub 中找到。

OpenThinker-32B 在 AWS SageMaker 集群上使用四个 8xH100 P5 节点训练了 90 小时，累计使用了 2,880 个 H100 小时。

同时，OpenThinker-32B-Unverified 在 Leonardo 超级计算机上使用 96 个 4xA100 节点（每个 GPU64GB）训练了 30 小时，累计使用了 11,520 个 A100 小时。

评估

研究团队使用开源评估库 Evalchemy（炼金术）对所有模型进行评估。

对于 AIME24 和 AIME25，他们通过平均五次运行的结果来计算准确率。评估配置使用 0.7 的温度参数，将模型响应限制在 32,768 个 token 以内，不添加任何额外的系统或用户提示词，也不使用任何特殊的解码策略（如预算强制）。

当启动 OpenThoughts 项目时，他们设定了一个目标，即创建一个性能可以达到 DeepSeek-R1-Distill-Qwen-32B 的开放数据模型。

现在这个差距已经几乎消除。

最后，研究团队为社区在过去几周在构建开放数据推理模型方面取得的快速进展感到振奋，并期待基于彼此的洞见继续向前发展。

OpenThinker-32B 的开源，证明了数据、验证和模型规模的协同作用是提升推理能力的关键。

这一成果不仅推动了开源推理模型的发展，也为整个 AI 社区提供了宝贵的资源和启示。

本文来自微信公众号：新智元（ID：AI_era），原标题《直逼 DeepSeek-R1-32B，碾压李飞飞 s1！UC 伯克利等开源全新 SOTA 推理模型》

本文链接：http://www.28at.com/showinfo-45-10780-0.html直逼 DeepSeek-R1-32B，UC 伯克利等开源全新 SOTA 推理模型 OpenThinker-32B

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：阿里巴巴蔡崇信：AI 竞争很激烈，DeepSeek 转变行业思路

下一篇： 4S店强制买车险？学会这句话，委婉拒绝不纠结！

标签：

热门焦点

数字人的AB面：在元宇宙中过气，在AIGC中重生

来源：光锥智能作者：郝鑫“29800元一年的虚拟主播，号称24小时不停播，月入十几万，实际上却是关键词都不能回复，播了半个月，直播间还因违规被快手封禁，最终投诉无门、退款无果。&
时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

想象一个你的数字身份与现实身份同样重要的世界。想象一个你需要为虚拟自我准备资产和物资的地方——你需要金钱（Crypto）、房屋（可能建在Minecraft上）和衣物。随着
“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限，腾讯等大厂更加密集地投资动作，让游戏创投市场异常火热，"元宇宙"概念的大放异彩，更是吸引了Netfl
Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

在女性遭受性骚扰甚至被攻击的事件相继被报道之后，仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
顶流IP“冰墩墩”带着中国元素NFT进入全球视野

一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会，在这个“双奥之城”经历了16个令人难忘的精彩日夜，最终圆满闭幕。让我们印象深刻的不
元宇宙“概念股”集体崩塌，背后究竟发生了什么？

近期，Roblox和Meta公布了第四季度的财务报告，在财报发布一日后，股价大跌。作为市值一度超过1万亿美元的世界第六大公司Meta，股价大跌4%，市值降至5650亿美元，甚至跌出
HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

今日热点：HTC Vive正式推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商北京蜂巢科技；面部追踪和眼动追踪是Quest下一版本的“重点”；索尼PSVR 2将推迟至2023
2022年元宇宙系列报告：UGC当道，XR带来新交互体验

UGC作为元宇宙的主要内容创作模式，已经越来越多的呈现于游戏、娱乐、社交、传媒等方面，UGC模式勾勒了元宇宙的边界，现今元宇宙UGC模式的主要呈现方式以元宇宙概念
虚拟人行业研究报告

最早的虚拟人出现于 20 世纪 80 年代，受限于技术，当时的虚拟人制作以手绘为主。21 世纪初，随着动捕、渲染等技术的逐步发展，虚拟人相关技术开始在影视领域逐渐普及

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

直逼 DeepSeek-R1-32B，UC 伯克利等开源全新 SOTA 推理模型 OpenThinker-32B

数字人的AB面：在元宇宙中过气，在AIGC中重生

时尚领域进军元宇宙，2022年会带来哪些颠覆性的全新体验？

“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

顶流IP“冰墩墩”带着中国元素NFT进入全球视野

元宇宙“概念股”集体崩塌，背后究竟发生了什么？

HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

虚拟人行业研究报告

最新推荐

清华、北大等86所高校布局元宇宙，是风口还是噱头？

不同于传统数字经济，元宇宙赋予商业生态更多数字资产价值！

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

索尼公布PSVR 2头显渲染图；社区开发者发布Quest版《我的世界》

重温 1602 年：DAO 是新的企业范式吗？

NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

猜你喜欢

热门推荐

相关资讯