当前位置:首页 > 科技  > 软件

斯坦福 2025 年 HAI 报告出炉,国产大模型仅讯飞星火入围 Mix-Eval 前十

来源: 责编: 时间:2025-04-09 12:35:42 146观看
导读 2025 年 4 月 8 日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025 年人工智能指数报告》(HAI 报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火 4.0(Spark 4.0)凭借其在“MixEval

2025 年 4 月 8 日,斯坦福大学与加拿大国立大学、卡内基梅隆大学联合发布的《2025 年人工智能指数报告》(HAI 报告)正式出炉,在众多顶尖大模型的技术性能评测中,来自中国的讯飞星火 4.0(Spark 4.0)凭借其在“MixEval-Hard”测试中的出色表现,成为国内唯一入围前十的中文大模型,在所有国产大模型中排名第一,展示出强劲的技术实力与国际竞争力。HZF28资讯网——每日最新资讯28at.com

HZF28资讯网——每日最新资讯28at.com

MixEval 是本次 HAI 报告引入的一项全新评测标准,专为评估大语言模型在复杂真实语言任务中的表现,尤其聚焦于“分布式用户查询”和“复杂问题处理能力”。在更具挑战性的 MixEval-Hard 基准测试中,讯飞星火 4.0 超越了包括 LLaMA 2、Gemini 1.5 Pro 等多个国际知名模型以及通义千问等国内模型,成为唯一入榜前十的中国大模型选手。HZF28资讯网——每日最新资讯28at.com

HZF28资讯网——每日最新资讯28at.com

从报告来看,在 MixEval-Hard 得分最高的是 OpenAI 的最新模型“OpenAI o1-preview”,以 72.0 分遥遥领先,其次是 Anthropic 的 Claude 3.5 Sonnet(68.1 分)以及 Meta 推出的 LLaMA-3 405B-Instruct(66.2 分)。讯飞星火 4.0 紧随亚马逊旗下模型 Mistral Large2,以 0.4 的劣势排在第十名,在多个维度上展现出不俗的语言理解和推理能力。HZF28资讯网——每日最新资讯28at.com

MixEval-Hard 测试体系包括“过滤筛选”“语料注释”“评估”和“动态更新”等多个环节,模拟真实场景下用户与模型的交互过程,是目前衡量模型处理复杂任务能力最具代表性的基准之一。其涵盖多模态能力、事实一致性、推理能力等综合指标,被业界称为“大模型能力大考”。HZF28资讯网——每日最新资讯28at.com

作为科大讯飞旗下的重要战略产品,讯飞星火大模型自 2023 年发布以来不断迭代升级。其 4.0 版本于 2024 年 6 月发布的,在语义理解、逻辑推理、跨语种翻译等多个领域都实现突破。2025 年 3 月 3 日,讯飞星火发布深度推理模型 X1 在数学能力上大幅跃升,以 70B 参数规模便追平了 o1 和 DeepSeek-R1。尤其针对小初高中文测试集(来自 2023/2024 各学段考试真题 / 模拟题 / 竞赛题),星火 X1 拿下 SOTA。令人振奋的是,这一切全是在全国产算力平台上实现的。HZF28资讯网——每日最新资讯28at.com

值得注意的是,本次 HAI 报告也指出,虽然中美在 AI 能力发展上仍存在差距,但中国本土模型正在以“快马加鞭”的速度追赶国际巨头,中美顶级 AI 模型的性能差距已经缩小到了 0.3%(2023 年,这一数字还是 20%),国产大模型正在迈向全球舞台的中心。HZF28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-142554-0.html斯坦福 2025 年 HAI 报告出炉,国产大模型仅讯飞星火入围 Mix-Eval 前十

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 江波龙推出企业级 SATA 固态硬盘 UNCIA 3856:容量覆盖 480GB 至 7.68TB

下一篇: 《刺客信条:影》两大主机平台表现迥异,PS5销量不佳真相何在?

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • 红魔电竞平板评测:大屏幕硬实力

    前言:三年的疫情因为要上网课的原因激活了平板市场,如今网课的时代已经过去,大家的生活都恢复到了正轨,这也就意味着,真正考验平板电脑生存的环境来了。也就是面对着这种残酷的
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 多线程开发带来的问题与解决方法

    使用多线程主要会带来以下几个问题:(一)线程安全问题  线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间,该数据被其他的线程所修改,那么对于当前线程而言,该线程
  • 这款新兴工具平台,让你的电脑效率翻倍

    随着信息技术的发展,我们获取信息的渠道越来越多,但是处理信息的效率却成为一个瓶颈。于是各种工具应运而生,都在争相解决我们的工作效率问题。今天我要给大家介绍一款效率
  • 2天涨粉255万,又一赛道在抖音爆火

    来源:运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁这个暑期,旅游赛道彻底火了:有的「地方」火了——贵州村超旅游收入 1 个月超过 12 亿;有的「博主」火了&m
  • 本地生活这块肥肉,拼多多也想吃一口

    出品/壹览商业 作者/李彦编辑/木鱼拼多多也看上本地生活这块蛋糕了。近期,拼多多在App首页“充值中心”入口上线了本机生活界面。壹览商业发现,该界面目前主要
  • 华为发布HarmonyOS 4:更好玩、更流畅、更安全

    在8月4日的华为开发者大会2023(HDC.Together)大会上,HarmonyOS 4正式发布。自2019年发布以来,HarmonyOS一直以用户为中心,经历四年多的发展HarmonyOS已
  • AMD的AI芯片转单给三星可能性不大 与台积电已合作至2nm制程

    据 DIGITIMES 消息,英伟达 AI GPU 出货逐季飙升,接下来 AMD MI 300 系列将在第 4 季底量产。而半导体业内人士表示,近日传出 AMD 的 AI 芯片将转单给
Top