当前位置：首页 > 科技 > 手机

AI“高考”成绩出炉：数学全灭

来源：责编：时间：2024-06-20 15:13:40 200观看

导读近日，上海人工智能实验室公布了首个AI高考全卷评测结果，展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。此次参与测试的开源模型如下：
Mixtral 8x22B：法国AI公司Mistral于2024年4月17日开源的对话

近日，上海人工智能实验室公布了首个AI高考全卷评测结果，展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。

此次参与测试的开源模型如下：

Mixtral 8x22B：法国AI公司Mistral于2024年4月17日开源的对话模型。
Yi-1.5-34B：零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
GLM-4-9B：智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
InternLM2-20B-WQX：上海人工智能实验室于2024年6月4日开源的书生・浦语2.0系列文曲星大语言模型。
Qwen2-57B：阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
Qwen2-72B：阿里巴巴于2024年6月6日开源的72B稠密模型。

此次选择的六款模型均在高考前开源，这避免了开发者使用高考试题训练模型，从而“作弊”。

此次测试结果如下：

可以看出，总成绩方面阿里的Qwen2-72B排名第一，成绩303分；GPYT-4o得分296分排名第二；第三则是来自上海人工智能实验室的InternLM2-20B-WQX，295.5分。

不过，有趣的是，数学成为了此次测试中所有大模型的短板，150分的试卷，没有一款模型能够达到90分的及格分。

从结果来看，目前各家的大模型对于语义理解、文字沟通已经有了相对不错的表现，但面对数学这样强逻辑运算的领域，AI还是会力不从心。

本文链接：http://www.28at.com/showinfo-22-95035-0.htmlAI“高考”成绩出炉：数学全灭

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： MIX Flip消息汇总：可能是最强8Gen3小折叠

下一篇：产能充足华为Pura 70系列也开始降价了

标签：

热门焦点

一加Ace2 Pro真机揭晓钛空灰配色质感拉满

终于，在经过了几波预热之后，一加Ace2 Pro的外观真机图在网上出现了。还是博主数码闲聊站曝光的，这次的外观设计还是延续了一加11的方案，只是细节上有了调整，例如新加入了钛空灰
6月iOS设备性能榜：M2稳居榜首 A系列只能等一手3nm来救

没有新品发布，自然iOS设备性能榜的上榜设备就没有什么更替，仅仅只有跑分变化而产生的排名变动，毕竟苹果新品的发布节奏就是这样的，一年下来也就几个移动端新品，不会像安卓厂商，一
慕岩炮轰抖音，百合网今何在？

来源：价值研究所作者：Hernanderz“难道就因为自己的一个产品牛逼了，从客服到总裁，都不愿意正视自己产品和运营上的问题，选择逃避了吗？”这一番话，出自百合网联合创
猿辅导与新东方的两种“归途”

作者｜卓心月出品｜零态LT（ID：LingTai_LT）如何成为一家伟大企业？答案一定是对“势”的把握，这其中最关键的当属对企业战略的制定，且能够站在未来看现在，即使这其中的
年轻人的“职场羞耻感”，无处不在

作者：冯晓亭陶淘李欣张琳马舒叶来源：燃次元“人在职场，应该选择什么样的着装？”近日，在网络上，一个与着装相关的帖子引发关注，在该帖子里，一位在高级写字楼亚洲金
造车两年股价跌六成，小米的估值逻辑变了吗？

如果从小米官宣造车后的首个交易日起持有小米集团的股票，那么截至2023年上半年最后一个交易日，投资者将浮亏59.16%，同区间的恒生科技指数跌幅为52.78%
郭明錤称华为和江淮汽车合作开发问界MPV，定价100万左右、计划明年量产

8 月 1 日消息，郭明錤今天在 Medium 平台发布博文，称华为正在和江淮汽车合作，开发售价在 100 万元的问界 MPV，预计在 2024 年第 2 季度量产，销量目标为
iQOO 11S屏幕细节公布：首发三星2K E6全感屏安卓最好的直屏手机

日前iQOO手机官方宣布，新一代电竞旗舰iQOO 11S将会在7月4日19:00正式与大家见面。随着发布时间的日益临近，官方关于该机的预热也更加密集，截至目前已
亲历马斯克血洗Twitter，硅谷的苦日子在后头

文/刘哲铭　　编辑/李薇　　马斯克再次挥下裁员大刀。　　美国时间11月14日，Twitter约4400名外包员工遭解雇，此次被解雇的员工的主要工作为内容审核等。此前，T

AI“高考”成绩出炉：数学全灭

一加Ace2 Pro真机揭晓钛空灰配色质感拉满

6月iOS设备性能榜：M2稳居榜首 A系列只能等一手3nm来救

慕岩炮轰抖音，百合网今何在？

猿辅导与新东方的两种“归途”

年轻人的“职场羞耻感”，无处不在

造车两年股价跌六成，小米的估值逻辑变了吗？

郭明錤称华为和江淮汽车合作开发问界MPV，定价100万左右、计划明年量产

iQOO 11S屏幕细节公布：首发三星2K E6全感屏安卓最好的直屏手机

亲历马斯克血洗Twitter，硅谷的苦日子在后头

最新推荐

猜你喜欢

热门推荐

相关资讯