当前位置：首页 > 元宇宙 > AI

大模型 2024 高考发榜，豆包等三款国产 AI 考上文科一本线

来源：责编：时间：2024-06-28 17:09:12 304观看

导读眼下，全国各地的高考成绩陆续出炉，各种关于考生考了多少分的新闻也在不断登上头条。而最近，有一批特殊考生的成绩也出炉了，他们就是由各家 AI 大模型组成的“考试天团”。大模型考上文科本科，豆包拿下国产 AI 最高

眼下，全国各地的高考成绩陆续出炉，各种关于考生考了多少分的新闻也在不断登上头条。

而最近，有一批特殊考生的成绩也出炉了，他们就是由各家 AI 大模型组成的“考试天团”。

大模型考上文科本科，豆包拿下国产 AI 最高分

6 月 24 日，在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中，GPT-4o 以 562 分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是 542.5 分。

再往后，依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全相同，河南高考录取分数线显示，文科本科一批录取分数线为 521 分，豆包等三款国产 AI 成功冲上一本线。

我们知道，当前生成式 AI 大模型技术正处于商用普及的初期，小到每个人的工作、生活，大到千行百业的生产、创作，都在逐渐受到来自 AI 大模型技术的赋能。

但同时我们也应该看到，生成式 AI 尚处于发展初级阶段，AI 是否足够“聪明”，仍然是影响相关技术和产品体验的基本要素。

所以，用高考题来测试 AI 大模型，确实不失为一个有趣又直观的评判大模型能力的方式。

下面让我们具体看看不同大模型在面对高考试卷时的表现。

语言能力是优势，豆包大模型作文获好评

具体来看这次高考卷大模型评测的详细情况。首先，语文、英语的语言类考试，是大模型有能力和人类考生较量的赛场，多家产品能拿到客观题目的满分或接近满分。

凭借中文语言的“主场优势”，三款国产大模型产品获得了语文考试前三名，分别是百小应、字节豆包和腾讯元宝，得分依次为 128 分、125.5 分和 120.5 分。除了少数开放性的阅读理解和语言文字运用问题，各家大模型主要丢分在语文写作上。

（图自：极客公园）

作为本次评测的语文作文阅卷人，北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。

夏老师认为：“Al 写出的文章大多有清晰完整的结构，有逻辑性，语言通顺流畅。但其理性有余，感性不足，缺乏感情色彩，自然就缺乏感染力。”

不过这其中，豆包大模型的作文在匿名阅卷中，获得阅卷老师的好评：

文章中显出的对就业结构、伦理方面的担心，展现出豆包已经具有不错的思想深度和思辨能力。在立住“问题”后，豆包随即用反问句自然过渡，引出三个排比段提出解决问题的方法 —— 保持“问题意识”。其中用发展的眼光分析问题，结合现实生活揭示问题产生的根源和危害的部分颇为亮点，并且整体上“结构严谨，层层推进，语句流畅，认识全面”。

英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得 30 分满分。在阅读和语言运用两大项客观问题的考试上，GPT-4o、百小应、通义千问获得 80 分满分，豆包和文心一言 4.0 也接近满分。

但是在 40 分的写作考试中，最高分只有 29 分，分别由 GPT-4o 和百小应获得，各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力，获得高考满分并非难事。

在由历史、地理、政治组成的新课标文综考卷评测中，GPT-4o 获得 237 分的成绩，平均分达到 79 分，优于多数人类考生。国产大模型产品中，豆包的文综成绩最高，分数达到 224.5 分，其中历史科目拿到 82.5 分，在所有 9 款大模型中得分第一。

政治考试中，GPT-4o 出人意料的获得了 88 分的最高分，百小应和豆包得分超过 80。地理考卷则有大量图片问题，对一众大模型是不小的挑战，图像理解能力较强的 GPT-4o 得到最高分，但仅有 68 分。

河南高考分数段统计数据显示，GPT-4o 的 562 分在文科考生中排名 8811 名，相当于人类考生的前 2.45%。而仅次于 GPT-4o、位列国产 AI 第一名的豆包大模型文科成绩 542.5 分，超过文科一本线 20 分，处于前 4.27% 的位置。

由此可见，在过去一年多时间里，国产 AI 技术能力获得了长足进步，目前已经接近国际顶尖大模型的水平。

理科考试成绩有待提高，AI 并非全能

与人类顶尖考生相比，大模型在数学、物理、化学等数理学科上差距极大，包括 GPT-4o 在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分，大模型的理科最好成绩还无法进入人类考生的前 30%。

以数学试卷为例，9 款大模型产品中，仅 GPT-4o、文心一言 4.0 和豆包获得 60 分以上成绩（满分 150 分），目前的大模型只能正确推理步骤相对简单的问题。

据测试机构透露，豆包等大模型能准确运用求导公式和三角函数定理，但是面对较为复杂的推导和证明问题就很难继续得分。

重点考查实验探究能力的化学和物理试卷，各模型平均分更是只有 34 分和 39 分（满分为 100 和 110）。化学单项最高分由豆包获得，成绩为 49.5 分，GPT-4o 仅有 42 分。

大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题，人类考生根据“时间不会倒流”可以排除错误选项，轻易选对正确答案“C”，大模型则几乎全军覆没。

要学会像人类一样思考和解决问题，大模型还有很长的路要走。

不过，据麦肯锡报告分析，大模型的价值创造潜力惊人，到 2030 年，有望在全球推动 49 万亿人民币的经济增量。

而目前，从技术创新到商业落地，大模型已经开始在为我们的日常工作生活和各行业的 AI 转型提供动能。

虽然生成式 AI 目前确实还有不足，路漫漫其修远，但相信在以豆包大模型为代表的众多生成式 AI 技术和产品的共同发展和努力下，未来简单的高考试卷对于它们来说将不再是挑战，更广泛的应用场景唱，给出更加完美的答卷。

本文链接：http://www.28at.com/showinfo-45-4833-0.html大模型 2024 高考发榜，豆包等三款国产 AI 考上文科一本线

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：华为联合清华大学发布《AI 终端白皮书》：生成式 AI 时代终端的未来路在何方？

下一篇：讯飞星火大模型 V4.0 发布会直播（视频）

标签：

热门焦点

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

来源：清元宇宙炎炎夏日努力工作的Q仔的电脑都冒烟儿啦～今天要给大家介绍两个新小伙伴——小元和小娲，他们将给大家解读元娲2.7版本重磅更新内容～大家掌声欢迎～～～本次更
沉寂3年，大模型激活小度天猫精灵？

Tech星球（微信ID：tech618）文 | 何煦阳沉寂了许久的智能音箱，在今年大模型横空出世之后，又再次燃起了新的希望。 2月9日，小度宣布将融合文心一言，打造针对智能设备场景的AI模型&ldq
顶流IP“冰墩墩”带着中国元素NFT进入全球视野

一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会，在这个“双奥之城”经历了16个令人难忘的精彩日夜，最终圆满闭幕。让我们印象深刻的不
Meta展示AI系统Builder Bot；《Pistol Whip》增加派对模式

今日热点：Meta展示AI系统Builder Bot；招聘信息显示Meta正在探索具有蜂窝连接功能的VR/AR头显；英国VR工作室Coatsink Games正在为PSVR 2开发新游戏；VR节奏射击游戏
本周NFT领域重要资讯回顾

NFT在苏富比拍卖是一波三折的吗？其实不完全如此，但本周在苏富比拍卖行发生了一系列有趣的事。与此同时，美联社因其最新的NFT销售被推到了风口浪尖，而Opensea正面临
元宇宙画廊体验报告：有点头疼。

2 月 10 日，Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗？时间好像变长了” 我问身后排队的人。我
对讽刺无动于衷，Nori将碳市场放在区块链上

当我们聊气候问题的解决方案时，以太坊区块链应该不是最首想到的，但这正是Nori所选择的方案，它建立了一个引擎，鼓励农民使用负碳耕作方法，将空气中的碳抽出并放回地
元宇宙收割了谁

作者：晓宇资本将元宇宙看作下一代互联网的门票，画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里，先是号称元宇宙第一股的沙盒游戏Roblox盛装
初探元宇宙

2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中，被称为“元宇宙”第一股后，Facebook更名为Meta, 引发全球范围内

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

大模型 2024 高考发榜，豆包等三款国产 AI 考上文科一本线

元娲2.7上线：虚拟人视频制作速度疯狂翻倍！

沉寂3年，大模型激活小度天猫精灵？

顶流IP“冰墩墩”带着中国元素NFT进入全球视野

Meta展示AI系统Builder Bot；《Pistol Whip》增加派对模式

本周NFT领域重要资讯回顾

元宇宙画廊体验报告：有点头疼。

对讽刺无动于衷，Nori将碳市场放在区块链上

元宇宙收割了谁

初探元宇宙

最新推荐

猜你喜欢

热门推荐

相关资讯