当前位置：首页 > 科技 > 软件

强强 PK 国产胜，讯飞星火 X1 碾压 DeepSeek

来源：责编：时间：2025-01-20 08:28:02 222观看

导读推理模型竞赛又添新玩家。1 月 15 日，科大讯飞对外发布首个基于全国产平台训练的深度推理模型讯飞星火 X1，该模型凭借更少的算力，实现了业界一流的效果，多项指标国内第一，并率先应用于真实场景。目前，市面上的推理

推理模型竞赛又添新玩家。1 月 15 日，科大讯飞对外发布首个基于全国产平台训练的深度推理模型讯飞星火 X1，该模型凭借更少的算力，实现了业界一流的效果，多项指标国内第一，并率先应用于真实场景。

目前，市面上的推理模型众多，但各家的侧重点并不相同。比如 DeepSeek 着重强调其通过强化学习训练，可以对外展现更长的思维链。通义团队多次强调 QwQ 的深度自省能力，模型在思考过程中会质疑其自身假设，审视推理过程。月之暗面则更强调 k0-math 的数学能力，称其数学能力可以与 OpenAI 的 o1 系列模型媲美。

科大讯飞最新发布的推理模型 X1 多项指标实现国内第一。发布会上，科大讯飞展示了讯飞星火 X1 解答高考题、AIME 竞赛题以及高中奥赛题的表现。

X1 不仅准确给出答案，还可以对解题思路和步骤进行详细拆解，充分展现深度推理模型的三大典型特征：一、化繁为简，将复杂问题分步拆解简化；二、进行自我探索和反思验证；三、基于答案正确与否的优质反馈信息进行强化训练。

以一道 2024 年全国高中联合数学竞赛的无穷等比数列求和问题为例，分别在网页端提问讯飞星火 X1 与 DeepSeekV3、Kimi 中的最新推理模型。

三者均展现出当下推理模型的典型特征，比如能够针对对复杂问题进行分步拆解，也会在求解过程中不断进行自我反思验证。

不过，相较于讯飞星火 X1 在解答过程中动态展示思维步骤不同，DeepSeek 对外强调的思维链条有些过长，一定程度上影响了用户与模型的交互。Kimi 则是将思考过程与模型回答融为一体，却没有给出一个总结性的解题步骤，不够直观。

在回答准确率上，我们引用包括小初高（含竞赛）、大学（含竞赛）、AIME、MATH500 等多项数学考试测试数据进行对比。其中，讯飞星火 X1 多项指标均获国内第一。在多个中文考试测试的比拼中，讯飞星火 X1 得分都超过 DS-R1-Lite-Preview、QwQ-32B-Preview、K1-math 等众多推理模型，中文数学能力国内第一。

更难能可贵的是，这份成绩还是基于全国产算力平台得来的。和市面上常见的其他模型不同，讯飞星火 X1 是目前全国产算力平台上唯一的深度推理模型，用更少的算力，实现了业界一流效果。

这样的成绩十分难得。一直以来，讯飞星火都坚持全国产化路线，讯飞星火至今仍然是国内唯一基于全国产算力平台的大模型。但推理模型的训练与大语言模型有诸多不同，仍然面临不少挑战。科大讯飞迎难而上，携手华为成功攻克了训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题，最终成功基于全国产算力平台训练出深度推理模型 X1。

之所以讯飞星火 X1 一出世就能在多项数学测试中取得亮眼成绩，和此前讯飞星火着重提升的数学能力不无关系。事实上，一直以来讯飞星火都是数学能力最强的大模型之一。此前，讯飞星火 4.0Turbo 就在数学和代码能力上实现对 GPT-4o 的超越，完成了超长思维链、树搜索和自我反思评价等算法的验证。

去年高考期间，多家媒体和专业人士用高考数学题对市面上的大模型进行测评比试，讯飞星火表现出色，领先一众同行。

在搜狐科技针对国内十余家大模型的高考数学能力评测中，讯飞星火、文心一言、豆包均以63% 的正确率位列第一梯队，智谱清言、阿里通义则以50% 的正确率位居第二梯队，其他大模型相对落后。

这次着重提升了深度推理能力的 X1，则是将讯飞星火一直见长的数学能力再度提升一个维度。相较于此前的大语言模型，讯飞星火 X1 从训练方法、训练数据乃至架构上都有所不同，数学和推理能力显著提升。

技术迭代之外，科大讯飞率先将推理模型应用到教育、医疗等真实刚需场景之中。搭载了星火 X1 的高中数学智能教师助手，已被一线教研员和教师用来解答高中数学创新题和考试题。在医疗场景下，X1 的相关技术和策略也取得了初步验证成效，可使得专科辅助诊断和复杂病历内涵质控的准确率均达 90%。

大模型时代的迭代速度远超以往，一家公司的领先往往只能持续数月乃至数周，稍有不慎就会被后来者超越，此次讯飞星火 X1 出道即“巅峰”也正说明了这一点。唯有不断从底层攻难克坚，真正从源头实现自主可控，才能在日益飞速技术迭代立于不败之地。

本文链接：http://www.28at.com/showinfo-26-126062-0.html强强 PK 国产胜，讯飞星火 X1 碾压 DeepSeek

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：苹果公司声明：TikTok 及字节跳动旗下应用在美国已不可用

下一篇：黄仁勋宴请 35 位英伟达供应链大佬，预告将参加 2025 台北电脑展

标签：

热门焦点

红魔电竞平板评测：大屏幕硬实力

前言：三年的疫情因为要上网课的原因激活了平板市场，如今网课的时代已经过去，大家的生活都恢复到了正轨，这也就意味着，真正考验平板电脑生存的环境来了。也就是面对着这种残酷的
一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

8月5日消息，此前就有爆料称，一加首款折叠屏手机将会在第三季度上市，如今随着时间临近，新机的各种消息也开始浮出水面。据悉，这款新机将会被命名为“On
摸鱼心法第一章——和配置文件说拜拜

为了能摸鱼我们团队做了容器化，但是带来的问题是服务配置文件很麻烦，然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比，简单对比下独立配置中心和k8s作为配
微软邀请 Microsoft 365 商业用户，测试视频编辑器 Clipchamp

8 月 1 日消息，微软近日宣布即将面向 Microsoft 365 商业用户，开放 Clipchamp 应用，邀请用户通过该应用来编辑视频。微软于 2021 年收购 Clipchamp，随后开始逐步整合到 Microsof
签约井川里予、何丹彤，单视频点赞近千万，MCN黑马永恒文希快速崛起！

来源：视听观察永恒文希传媒作为一家MCN公司，说起它的名字来，可能大家会觉得有点儿陌生，但是说出来下面一串的名字之后，或许大家就会感到震惊，原来这么多网红，都签约这家公司了。根
自研Exynos回归！三星Galaxy S24系列将提供Exynos和骁龙双版本

年初，全新的三星Galaxy S23系列发布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三个版本，全系搭载超频版骁龙8 Gen 2，虽同样采用台积电4nm工艺制
半导体需求下滑三星电子DS业务部门今年营业亏损预计超10万亿韩元

7月17日消息，据外媒报道，去年下半年开始的半导体需求下滑，影响到了三星电子、SK海力士、英特尔等诸多厂商，营收明显下滑，部分厂商甚至出现了亏损。作为
与兆芯合作联想推出全新旗舰版笔记本电脑开天N7系列

联想与兆芯合作推出全新联想旗舰版笔记本电脑开天 N7系列。这个系列采用兆芯KX-6640MA处理器平台，KX-6640MA 处理器是采用了陆家嘴架构，16nm 工艺，4 核 4 线
外交部：美方应停止在网络安全问题上不负责任地指责他国

　中国外交部今天（16日）举行例行记者会。会上，有记者问，美国情报官员称，他们正在阻拦来自中国以及其他国家的黑客获取相关科研成果。中方对此有何评论？对此

强强 PK 国产胜，讯飞星火 X1 碾压 DeepSeek

红魔电竞平板评测：大屏幕硬实力

一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

摸鱼心法第一章——和配置文件说拜拜

微软邀请 Microsoft 365 商业用户，测试视频编辑器 Clipchamp

签约井川里予、何丹彤，单视频点赞近千万，MCN黑马永恒文希快速崛起！

自研Exynos回归！三星Galaxy S24系列将提供Exynos和骁龙双版本

半导体需求下滑三星电子DS业务部门今年营业亏损预计超10万亿韩元

与兆芯合作联想推出全新旗舰版笔记本电脑开天N7系列

外交部：美方应停止在网络安全问题上不负责任地指责他国

最新推荐

猜你喜欢

热门推荐

相关资讯