当前位置:首页 > 元宇宙 > AI

大模型 2024 高考发榜,豆包等三款国产 AI 考上文科一本线

来源: 责编: 时间:2024-06-28 17:09:12 255观看
导读 眼下,全国各地的高考成绩陆续出炉,各种关于考生考了多少分的新闻也在不断登上头条。而最近,有一批特殊考生的成绩也出炉了,他们就是由各家 AI 大模型组成的“考试天团”。大模型考上文科本科,豆包拿下国产 AI 最高

眼下,全国各地的高考成绩陆续出炉,各种关于考生考了多少分的新闻也在不断登上头条。6NF28资讯网——每日最新资讯28at.com

而最近,有一批特殊考生的成绩也出炉了,他们就是由各家 AI 大模型组成的“考试天团”。6NF28资讯网——每日最新资讯28at.com

大模型考上文科本科,豆包拿下国产 AI 最高分

6 月 24 日,在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中,GPT-4o 以 562 分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是 542.5 分。6NF28资讯网——每日最新资讯28at.com

再往后,依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为 521 分,豆包等三款国产 AI 成功冲上一本线。6NF28资讯网——每日最新资讯28at.com

6NF28资讯网——每日最新资讯28at.com

我们知道,当前生成式 AI 大模型技术正处于商用普及的初期,小到每个人的工作、生活,大到千行百业的生产、创作,都在逐渐受到来自 AI 大模型技术的赋能。6NF28资讯网——每日最新资讯28at.com

但同时我们也应该看到,生成式 AI 尚处于发展初级阶段,AI 是否足够“聪明”,仍然是影响相关技术和产品体验的基本要素。6NF28资讯网——每日最新资讯28at.com

所以,用高考题来测试 AI 大模型,确实不失为一个有趣又直观的评判大模型能力的方式。6NF28资讯网——每日最新资讯28at.com

下面让我们具体看看不同大模型在面对高考试卷时的表现。6NF28资讯网——每日最新资讯28at.com

语言能力是优势,豆包大模型作文获好评

具体来看这次高考卷大模型评测的详细情况。首先,语文、英语的语言类考试,是大模型有能力和人类考生较量的赛场,多家产品能拿到客观题目的满分或接近满分。6NF28资讯网——每日最新资讯28at.com

凭借中文语言的“主场优势”,三款国产大模型产品获得了语文考试前三名,分别是百小应、字节豆包和腾讯元宝,得分依次为 128 分、125.5 分和 120.5 分。除了少数开放性的阅读理解和语言文字运用问题,各家大模型主要丢分在语文写作上。6NF28资讯网——每日最新资讯28at.com

6NF28资讯网——每日最新资讯28at.com

(图自:极客公园)

作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。6NF28资讯网——每日最新资讯28at.com

夏老师认为:“Al 写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”6NF28资讯网——每日最新资讯28at.com

不过这其中,豆包大模型的作文在匿名阅卷中,获得阅卷老师的好评:6NF28资讯网——每日最新资讯28at.com

文章中显出的对就业结构、伦理方面的担心,展现出豆包已经具有不错的思想深度和思辨能力。在立住“问题”后,豆包随即用反问句自然过渡,引出三个排比段提出解决问题的方法 —— 保持“问题意识”。其中用发展的眼光分析问题,结合现实生活揭示问题产生的根源和危害的部分颇为亮点,并且整体上“结构严谨,层层推进,语句流畅,认识全面”。6NF28资讯网——每日最新资讯28at.com

英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得 30 分满分。在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得 80 分满分,豆包和文心一言 4.0 也接近满分。6NF28资讯网——每日最新资讯28at.com

但是在 40 分的写作考试中,最高分只有 29 分,分别由 GPT-4o 和百小应获得,各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。6NF28资讯网——每日最新资讯28at.com

在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o 获得 237 分的成绩,平均分达到 79 分,优于多数人类考生。国产大模型产品中,豆包的文综成绩最高,分数达到 224.5 分,其中历史科目拿到 82.5 分,在所有 9 款大模型中得分第一。6NF28资讯网——每日最新资讯28at.com

政治考试中,GPT-4o 出人意料的获得了 88 分的最高分,百小应和豆包得分超过 80。地理考卷则有大量图片问题,对一众大模型是不小的挑战,图像理解能力较强的 GPT-4o 得到最高分,但仅有 68 分。6NF28资讯网——每日最新资讯28at.com

河南高考分数段统计数据显示,GPT-4o 的 562 分在文科考生中排名 8811 名,相当于人类考生的前 2.45%。而仅次于 GPT-4o、位列国产 AI 第一名的豆包大模型文科成绩 542.5 分,超过文科一本线 20 分,处于前 4.27% 的位置。6NF28资讯网——每日最新资讯28at.com

由此可见,在过去一年多时间里,国产 AI 技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。6NF28资讯网——每日最新资讯28at.com

理科考试成绩有待提高,AI 并非全能

与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括 GPT-4o 在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前 30%。6NF28资讯网——每日最新资讯28at.com

以数学试卷为例,9 款大模型产品中,仅 GPT-4o、文心一言 4.0 和豆包获得 60 分以上成绩(满分 150 分),目前的大模型只能正确推理步骤相对简单的问题。6NF28资讯网——每日最新资讯28at.com

据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。6NF28资讯网——每日最新资讯28at.com

重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有 34 分和 39 分(满分为 100 和 110)。化学单项最高分由豆包获得,成绩为 49.5 分,GPT-4o 仅有 42 分。6NF28资讯网——每日最新资讯28at.com

大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题,人类考生根据“时间不会倒流”可以排除错误选项,轻易选对正确答案“C”,大模型则几乎全军覆没。6NF28资讯网——每日最新资讯28at.com

6NF28资讯网——每日最新资讯28at.com

要学会像人类一样思考和解决问题,大模型还有很长的路要走。6NF28资讯网——每日最新资讯28at.com

不过,据麦肯锡报告分析,大模型的价值创造潜力惊人,到 2030 年,有望在全球推动 49 万亿人民币的经济增量。6NF28资讯网——每日最新资讯28at.com

而目前,从技术创新到商业落地,大模型已经开始在为我们的日常工作生活和各行业的 AI 转型提供动能。6NF28资讯网——每日最新资讯28at.com

虽然生成式 AI 目前确实还有不足,路漫漫其修远,但相信在以豆包大模型为代表的众多生成式 AI 技术和产品的共同发展和努力下,未来简单的高考试卷对于它们来说将不再是挑战,更广泛的应用场景唱,给出更加完美的答卷。6NF28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-4833-0.html大模型 2024 高考发榜,豆包等三款国产 AI 考上文科一本线

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 华为联合清华大学发布《AI 终端白皮书》:生成式 AI 时代终端的未来路在何方?

下一篇: 讯飞星火大模型 V4.0 发布会直播(视频)

标签:
  • 热门焦点
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 元宇宙带来沉浸式智能登录?你学会了吗?

    备受资本市场宠爱的元宇宙概念,正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态,与沉浸式体验紧密相关。 多重路径,打造无感知沉浸式智能登录《设计
  • 元宇宙将会如何塑造未来的工作方式?

    科幻小说家尼尔·斯蒂芬森 (Neal Stephenson) 在1992年就创造了“元宇宙”一词,但事实上,在Facebook将其更名为Meta以反映其将这一科幻愿景变为现实的战略重点之
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
  • 从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
Top