近日,上海人工智能实验室公布了首个AI高考全卷评测结果,展示了GPT-4o与六个开源模型在面对高考语文、数学、英语试卷时的表现。Yr028资讯网——每日最新资讯28at.com
此次参与测试的开源模型如下:Yr028资讯网——每日最新资讯28at.com
Yr028资讯网——每日最新资讯28at.com
- Mixtral 8x22B:法国AI公司Mistral于2024年4月17日开源的对话模型。
- Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
- GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
- InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生・浦语2.0系列文曲星大语言模型。
- Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
- Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。
Yr028资讯网——每日最新资讯28at.com
此次选择的六款模型均在高考前开源,这避免了开发者使用高考试题训练模型,从而“作弊”。Yr028资讯网——每日最新资讯28at.com
此次测试结果如下:Yr028资讯网——每日最新资讯28at.com
Yr028资讯网——每日最新资讯28at.com
可以看出,总成绩方面阿里的Qwen2-72B排名第一,成绩303分;GPYT-4o得分296分排名第二;第三则是来自上海人工智能实验室的InternLM2-20B-WQX,295.5分。Yr028资讯网——每日最新资讯28at.com
不过,有趣的是,数学成为了此次测试中所有大模型的短板,150分的试卷,没有一款模型能够达到90分的及格分。Yr028资讯网——每日最新资讯28at.com
从结果来看,目前各家的大模型对于语义理解、文字沟通已经有了相对不错的表现,但面对数学这样强逻辑运算的领域,AI还是会力不从心。Yr028资讯网——每日最新资讯28at.com
本文链接:http://www.28at.com/showinfo-22-95035-0.htmlAI“高考”成绩出炉:数学全灭
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com
上一篇: MIX Flip消息汇总:可能是最强8Gen3小折叠
下一篇: 产能充足 华为Pura 70系列也开始降价了
标签: