当前位置：首页 > 元宇宙 > AI

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

来源：责编：时间：2024-06-22 16:27:51 306观看

导读 6 月 20 日消息，上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测

6 月 20 日消息，上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。

评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

该机构表示，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

具体来看，InternLM2-20B-WQX 取得了数学单科的最高分，超越包括 GPT-4o 在内的所有模型。

注：此次参与“大模型高考”评测的产品包含 GPT-4o 及其他 6 个模型。为公平起见，此次评测没有纳入商用闭源模型。

Mixtral 8x22B：法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。

Yi-1.5-34B：零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。

GLM-4-9B：智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。

InternLM2-20B-WQX：上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。

Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。

Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。

语数外三科加起来的满分为 420 分，此次高考测试结果显示，阿里通义千问 2-72B 排名第一，为 303 分，OpenAI 的 GPT-4o 排名第二，得分 296 分，上海人工智能实验室的书生・浦语 2.0 排名第三，三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名末尾，仅拿下 185 分。

数学是所有大模型的短板，平均得分率仅有 36%，参与测试的大模型无一及格。

此外，阅卷教师也对大模型表现进行了整体分析，为模型能力提升策略提供参考。

语文

模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。

大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。

数学

大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。

大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语

英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。

大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

本文链接：http://www.28at.com/showinfo-45-4723-0.html上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： B站开源轻量级 Index-1.9B 系列模型：2.8T 训练数据，支持角色扮演

下一篇：振兴乡村发展助力青少年教育中国三星连续十一年蝉联企业社会责任榜外企第一

标签：

热门焦点

新周期，谁在坚守窄门？

来源：锦缎今日的投资者恐怕已经忘记了，在OpenAI创造出ChatGPT这一杀器的前夜，生成式AI也曾经是一道窄门，窄到连马斯克都差点失去了信心。在当时的舆论眼中，AGI的道路不够性感，不够
聚焦虚拟数字人技术，这三大商机要抓住！

关于虚拟数字人，企业可以从三个方面入局，分别是ToG（To Government，面向政府），即为数字政府和数字城市提供支持服务；ToB（To Business，面向企业），即为企业提供虚拟员工解决方案；ToC（To Cons
茅台的元宇宙App火了，也被骂惨了

元宇宙从概念走向大众生活，并不是一件简单的事情。技术、世界观、填充内容、载体形式，每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
元宇宙是数字共识生态的集成逻辑表达

作者: 李鸣元宇宙是数字共识生态的集成逻辑表达，是以区块链技术为核心的可信数字化价值交互网络，是基于Web3.0技术体系和运作机制支撑下的数字新生态。本体论是
NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

当Stefan Prodanovic在13岁时开始尝试平面设计，与一位从事编程工作的学校朋友共同创作数字游戏时，他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
GameFi 深度解析，元宇宙内容雏形显现

GameFi=Game（游戏）+Defi（去中心化金融），核心特点为“Play to Earn”。通过技术与去中心化价值观赋能，GameFi 游戏资产化身为NFT 和代币上链，具备了可验证性和流通性；开
虚拟人的3大纪律和6种品牌孵化模式

作者：陈格雷（老小格）及团队虚拟人很热，我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点，整理出6种最主要的品牌虚拟人模式，后面一一介绍。
元宇宙+剧本杀：“在异世界里当演员”

你玩过剧本杀吗？体验过“元宇宙+剧本杀”吗？2月，恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造，通过VR技术塑造了与
元宇宙不完全是想出来的，而是实打实做出来的

沈阳强调，元宇宙不完全是想出来的，而是靠实打实做出来的；互联网向三维化升级是已经明确的大方向，这意味着大量的资金和技术会持续涌入。跨入2022年，元宇宙并没有“

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

新周期，谁在坚守窄门？

聚焦虚拟数字人技术，这三大商机要抓住！

茅台的元宇宙App火了，也被骂惨了

元宇宙是数字共识生态的集成逻辑表达

NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

GameFi 深度解析，元宇宙内容雏形显现

虚拟人的3大纪律和6种品牌孵化模式

元宇宙+剧本杀：“在异世界里当演员”

元宇宙不完全是想出来的，而是实打实做出来的

最新推荐

保时捷推出虚拟超跑，车企元宇宙营销这么香？

AI特效、虚拟人、数字盲盒，来看看元宇宙如何融合冬奥会！

元宇宙是数字共识生态的集成逻辑表达

DAO登上了历史舞台，但是主流准备好采用DAO了吗？

元宇宙收割了谁

你连元宇宙都不知道吗？快来看看这四本元宇宙书籍吧

猜你喜欢

热门推荐

相关资讯