当前位置：首页 > 科技 > 软件

中文大模型 2024 半年报出炉，通义千问通用能力国内第一

来源：责编：时间：2024-07-10 17:52:20 303观看

导读 7 月 10 日消息，中文大模型测评基准 SuperCLUE 发布 2024 上半年报告，披露针对国内外 33 个大模型的综合测评结果。阿里通义千问的开源模型 Qwen2-72B 成为排名第一的中国大模型，也是全球最强的开源模型，SuperCLU

7 月 10 日消息，中文大模型测评基准 SuperCLUE 发布 2024 上半年报告，披露针对国内外 33 个大模型的综合测评结果。阿里通义千问的开源模型 Qwen2-72B 成为排名第一的中国大模型，也是全球最强的开源模型，SuperCLUE 报告认为通义千问“超过众多国内外闭源模型”，“引领全球的开源生态”。

CLUE（The Chinese Language Understanding Evaluation）是发起于 2019 年的中文语言理解测评基准，致力于开展科学、客观、中立的语言模型评测，SuperCLUE 聚焦于通用大模型的综合性测评。

本次半年度测评针对国内外 33 个大模型的 6 月份版本进行，由理科、文科和 Hard 三大维度构成。理科任务包括计算、逻辑推理、代码测评；文科任务分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评；Hard 任务主要是精确指令遵循测评，未来还将推出复杂多步推理和高难度问题解决等测评。

图说：SuperCLUE 国际最好模型（GPT-4o）与国内最好模型（Qwen2-72）的整体性能对比

从代表通用能力的一级总分来看，OpenAI 的 GPT-4o 以 81 分高居榜首，Claude-3.5-Sonnet 与通义千问开源模型 Qwen2-72B-Instruct 并列第二，得分均为 77。通义千问既是排名最高的中国大模型，也是排名最高的开源大模型，性能超越文心一言 4.0、讯飞星火 V4.0、Llama-3-70B 等开闭源大模型。

具体到理科、文科、Hard 三个维度来看，国内外大模型的理科能力存在一定差距，GPT-4o 以绝对优势领跑，Qwen2-72B 的理科测试比 GPT-4o 少 5 分；文科任务上，大模型之间的区分度不明显，GPT-4o 与 Qwen2-72B 等模型的得分均为 76；精确指令遵循能力方面，仅有 GPT-4o 和 Claude 3.5 Sonnet 得分超过 80，国内表现最好的 Qwen2-72B 比 GPT-4o 低 6 分。

报告同时公布了端侧小模型测评榜单，通义千问 70 亿参数开源模型 Qwen2-7B 排名第一，打败了上一代版本的 Qwen1.5-32B（320 亿参数）和 Llama-3-8B-Instruct（130 亿参数），展现了更小尺寸的模型的极致性能。报告认为，2024 年上半年端侧小模型进展迅速、表现惊艳，极大提升了落地的可行性。

据悉，Qwen2 是阿里在今年 6 月推出的通义千问第二代开源模型，已先后登顶国内外多个权威榜单，引领中国开源模型强势崛起。Qwen 系列开源模型下载量已经突破 2000 万次。SuperCLUE 报告点评：“综合来看，Qwen2-72B 整体能力不俗，引领全球的开源生态，是一个非常有竞争力的通用开源大模型，可应用于推理、数理分析、信息处理或相对专业复杂场景，重点推荐应用于工业、金融、医疗、汽车等垂直专业场景。”

附：

・SuperCLUE 官方推文链接

・《中文大模型基准评测 2024 上半年报告》原文链接：

www.cluebenchmarks.com/superclue_24h1

本文链接：http://www.28at.com/showinfo-26-100065-0.html中文大模型 2024 半年报出炉，通义千问通用能力国内第一

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：三星电子：计划在 HBM4 世代为客户开发多样化定制 HBM 内存

下一篇：同比增长 105%，报告称 HBM 芯片明年月产能突破 54 万颗

标签：

热门焦点

vivo TWS Air开箱体验：真轻臻好听

在vivo S15系列新机的发布会上，vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布，本次就这款耳机新品给大家带来一个简单的分享。外包装盒上，vivo TWS Air保持了vivo自家产
6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

2023年上半年已经正式过去了，我们也迎来了安兔兔V10版本，在新的骁龙8Gen3和天玑9300发布之前，性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主，至于那颗3.36GHz的骁龙8Gen2领先
轿车从天而降电动车主被撞身亡超速抢道所致：现场视频让网友吵翻

近日，上海青浦区法院判决轿车从天而降电动车主被撞身亡案，轿车车主被判有期徒刑一年。案件显示当时男子驾驶轿车在上海某路段行驶，前车忽然转弯提速超车，
一文看懂为苹果Vision Pro开发应用程序

译者 | 布加迪审校 | 重楼苹果的Vision Pro是一款混合现实（MR）头戴设备。Vision Pro结合了虚拟现实（VR）和增强现实（AR）的沉浸感。其高分辨率显示屏、先进的传感器和强大的处理能力
“又被陈思诚骗了”

作者｜张思齐出品｜众面（ID：ZhongMian_ZM）如今的国产悬疑电影，成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档，陈思诚再度风头无两。你可以说陈思诚的
花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

来源：极点商业作者：杨铭在淘宝购买珠宝玉石后，因为保证金不够赔付，店铺关闭，退货退款难、维权无门的比比皆是。“提供相关产品鉴定证书，支持全国复检，可以30天无理由退换货。&
2299元起！iQOO Pad明晚首销：性能最强天玑平板

5月23日，iQOO如期举行了新品发布会，除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外，还在发布会上推出了旗下首款平板电脑——iQOO Pad，其最大的卖点
iQOO Neo8系列或定档5月23日：首发天玑9200+ 安卓跑分王者

去年10月，iQOO推出了iQOO Neo7系列机型，不仅搭载了天玑9000+，而且是同价位唯一一款天玑9000+直屏旗舰，一经上市便受到了用户的广泛关注。在时隔半年后，
荣耀Magic4 至臻版首创智慧隐私通话强劲影音系统

2022年第一季度临近尾声，在该季度内，许多品牌陆续发布自己的最新产品，让大家从全新的角度来了解当今的手机技术。手机是电子设备中，更新迭代十分迅速的一款产品，基

中文大模型 2024 半年报出炉，通义千问通用能力国内第一

vivo TWS Air开箱体验：真轻臻好听

6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

轿车从天而降电动车主被撞身亡超速抢道所致：现场视频让网友吵翻

一文看懂为苹果Vision Pro开发应用程序

“又被陈思诚骗了”

花7万退货退款无门：谁在纵容淘宝珠宝商家造假？

2299元起！iQOO Pad明晚首销：性能最强天玑平板

iQOO Neo8系列或定档5月23日：首发天玑9200+ 安卓跑分王者

荣耀Magic4 至臻版首创智慧隐私通话强劲影音系统

最新推荐

猜你喜欢

热门推荐

相关资讯