当前位置:首页 > 科技  > 网络

豆包文科成绩超了一本线:为什么理科不行

来源: 责编: 时间:2024-07-01 17:11:20 227观看
导读 什么?好多大模型的文科成绩超一本线,还是卷的河南省???△图源:极客公园没错,近就有这么一项大模型“高考大摸底”评测走红了。河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这

什么?好多大模型的文科成绩超一本线,还是卷的河南省???UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行△图源:极客公园UrI28资讯网——每日最新资讯28at.com

没错,近就有这么一项大模型“高考大摸底”评测走红了。UrI28资讯网——每日最新资讯28at.com

河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名值得关注:UrI28资讯网——每日最新资讯28at.com

GPT-4o:562分UrI28资讯网——每日最新资讯28at.com

字节豆包:542.5分UrI28资讯网——每日最新资讯28at.com

……UrI28资讯网——每日最新资讯28at.com

从结果中来看,GPT-4o的表现依旧是处于领先状态,而在国产大模型这边,比较亮眼的成绩便属于豆包了。UrI28资讯网——每日最新资讯28at.com

并且在语文和历史等科目的成绩甚至还超越了GPT-4o。UrI28资讯网——每日最新资讯28at.com

这也让不少网友纷纷感慨:UrI28资讯网——每日最新资讯28at.com

AI文科成绩这么好,看来在处理语言和逻辑上还是很有优势的。UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

不过有一说一,毕竟国产大模型的竞争是如此之激烈,这份评测的排名真的靠谱吗?发布仅数月的豆包,真具备此等实力吗?以及这数学……又是怎么一回事儿?UrI28资讯网——每日最新资讯28at.com

先看评测榜单UrI28资讯网——每日最新资讯28at.com

要回答上述的问题,我们不妨先来查一查豆包在新的权威评测榜单中的表现是否一致。UrI28资讯网——每日最新资讯28at.com

首先有请由智源研究院发布的FlagEval(天秤)。UrI28资讯网——每日最新资讯28at.com

它的评测方式是这样的:UrI28资讯网——每日最新资讯28at.com

对于开源模型, FlagEval会综合概率选择和自由生成两种方式来评测,对于闭源模型, FlagEval只采用自由生成的方式来评测,两种评测方式区别参照。UrI28资讯网——每日最新资讯28at.com

主观评测时部分闭源模型对极小部分题目有拒绝回答的情形,这部分题目并没有计入能力分数的计算。UrI28资讯网——每日最新资讯28at.com

在“客观评测”这个维度上,榜单成绩如下:UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

不难看出,这一维度下的FlagEval中,前四名的成绩是与“高考大摸底”的名次一致。UrI28资讯网——每日最新资讯28at.com

大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。UrI28资讯网——每日最新资讯28at.com

并且豆包在“知识运用”和“数学能力”两个维度上成绩还高于第一名的GPT-4。UrI28资讯网——每日最新资讯28at.com

若是将评测方式调节至“主观评测”,那么结果是这样的:UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

此时,百度的大模型跃居到了第一名,而字节的豆包依旧是稳居第二的成绩。UrI28资讯网——每日最新资讯28at.com

由此可见,不论是主观还是客观维度上,前几位的名次都是与“高考大摸底”的成绩是比较接近的。UrI28资讯网——每日最新资讯28at.com

接下来,我们再来有请另一个权威测评——OpenCompass(司南)。UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

在新的5月榜单中,豆包的成绩也是仅次于OpenA家的大模型。UrI28资讯网——每日最新资讯28at.com

同样的,在细分的“语言”和“推理”两个维度中,豆包还是超越了GPT-4o和GPT-4 Turbo。UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

但与专业评测冷冰冰的分数相比,人们都对高考有着更深刻的体验和记忆。UrI28资讯网——每日最新资讯28at.com

那么接下来我们就通过豆包回答高考题,来看看大模型在应对人类考试时的具体表现。UrI28资讯网——每日最新资讯28at.com

再看实际效果UrI28资讯网——每日最新资讯28at.com

既然目前许多试卷的题目都已经流出,我们不妨亲测一下豆包的实力。UrI28资讯网——每日最新资讯28at.com

例如让它先写一篇新课标I卷语文的作文题目:UrI28资讯网——每日最新资讯28at.com

随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?UrI28资讯网——每日最新资讯28at.com

以上材料引发了你怎样的联想和思考?请写一篇文章。UrI28资讯网——每日最新资讯28at.com

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行△结果由豆包PC端对话生成UrI28资讯网——每日最新资讯28at.com

从豆包的作答上来看,是已经摆脱了AI写作文经常犯的“首先-其次-以及-后”这种模板式的写法,也擅长引经据典来做论证。UrI28资讯网——每日最新资讯28at.com

但毕竟每个人对于文笔的审美标准不同,因此豆包高考作文写得如何,评价就交给你们了(欢迎在留言区讨论)。UrI28资讯网——每日最新资讯28at.com

值得一提的是,在量子位向豆包团队询问后得知,原来豆包PC端对话和手机端“拍题答疑”是两种截然不同的招式——UrI28资讯网——每日最新资讯28at.com

前者走的是LLM链路,后者走的则是RAG链路(若是用豆包手机端“拍题答疑”功能,高考数理化成绩也能接近满分)。UrI28资讯网——每日最新资讯28at.com

加上在这次“高考大摸底”评测出炉之后,很多网友们都将关注的重点聚焦到了数学成绩上:UrI28资讯网——每日最新资讯28at.com

AI也怕数学。UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

因此,接下来的实际效果测试,我们就将以“LLM链路+数学”的方式来展开。UrI28资讯网——每日最新资讯28at.com

先拿这次的选择题来小试牛刀一下:UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

当我们把题目在PC端“喂”豆包之后,它的作答如下:UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

因此,豆包给出的答案是:UrI28资讯网——每日最新资讯28at.com

A、C、D、D、B、B、A、AUrI28资讯网——每日最新资讯28at.com

这里我们再来引入排名第一选手GPT-4o的作答:UrI28资讯网——每日最新资讯28at.com

A、D、B、D、C、A、C、BUrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

而根据网上目前多个信源得到的标准答案是:A、C、D、A、B、B、C、B。UrI28资讯网——每日最新资讯28at.com

对比来看,豆包对5道,GPT-4o答对4道。UrI28资讯网——每日最新资讯28at.com

而对于更多的数学题的作答,其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试(所有大模型只能依靠LLM推理答题,不能通过RAG检索答案):UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行△图源:复旦大学自然语言处理实验室UrI28资讯网——每日最新资讯28at.com

由此可见,大模型并不能完全hold住高考数学题目,并且不同人生成答案的结果也会出现偏差。UrI28资讯网——每日最新资讯28at.com

并且量子位在反复测试后发现,豆包对话答题时有一定随机性,多轮测试时的结果并不完全一样。上文只取样其中一轮的结果。UrI28资讯网——每日最新资讯28at.com

这也正如广大网友所反馈的那般——大模型文科强、理科弱。UrI28资讯网——每日最新资讯28at.com

对此,技术圈也已经有一些讨论和解释:UrI28资讯网——每日最新资讯28at.com

大语言模型的基本原理是“文字接龙”,通过预测下一个token来生成内容,每次预测都有随机性和概率分布。UrI28资讯网——每日最新资讯28at.com

当大语言模型学习了海量知识数据,天然就适应考验记忆能力和语言运用的文科考试。UrI28资讯网——每日最新资讯28at.com

但理科考试主要考验推理和计算,比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%。UrI28资讯网——每日最新资讯28at.com

另一方面,理科语料比较稀缺。大模型的训练数据中,文科语料要远远大于理科语料。这也是大模型更擅长文科的一个原因。UrI28资讯网——每日最新资讯28at.com

大模型都在努力提升智能水平,主要目标就是提高推理和计算能力。目前学界对此存在争议,有观点认为,“预测下一个token”本身就包含了推理,计算也是一种推理。UrI28资讯网——每日最新资讯28at.com

只要Scaling Law生效,大模型性能持续提升,推理和计算能力就能够提升;但也有反对者(如Yann LeCun)认为,大语言模型缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果,主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI,目前还没有定论。UrI28资讯网——每日最新资讯28at.com

那是不是大模型就不适合用户来解数学题了呢?UrI28资讯网——每日最新资讯28at.com

也并不全是。UrI28资讯网——每日最新资讯28at.com

正如刚才所说,如果用豆包手机端的“拍题答疑”,也就是RAG链路的方式,那么结果的“打开方式”就截然不同了。UrI28资讯网——每日最新资讯28at.com

我们可以先用豆包APP对着题目拍照,让它先进行识别:UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

结果就是——全对!UrI28资讯网——每日最新资讯28at.com

豆包文科成绩超了一本线:为什么理科不行UrI28资讯网——每日最新资讯28at.com

至于更多类型题目大模型们的表现会如何,友友们可以拿着感兴趣的题目自行测试一番了。UrI28资讯网——每日最新资讯28at.com

如何评价?UrI28资讯网——每日最新资讯28at.com

从“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等评测上可以看到,豆包大模型已经稳稳进入国产第一梯队。UrI28资讯网——每日最新资讯28at.com

但随即而来的一个问题便是,过去一年多异常低调的豆包,是如何在短短一个月内就开始爆发的?UrI28资讯网——每日最新资讯28at.com

其实早在发布之际,豆包与其它大模型厂商截然不同的路径就已经有所体现,归结其背后的逻辑就是:UrI28资讯网——每日最新资讯28at.com

只有大的使用量,才能打磨出好的大模型。UrI28资讯网——每日最新资讯28at.com

据了解,豆包大模型在5月15日正式发布时,其每天平均处理的token数量高达1200亿,相当于1800亿的汉字;每天生成图片的数量为3000万张。UrI28资讯网——每日最新资讯28at.com

不仅如此,豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。UrI28资讯网——每日最新资讯28at.com

因此,我们可以把豆包在大模型性能上的路数,视为用“左手使用量,右手多场景”的方式反复打磨而来。UrI28资讯网——每日最新资讯28at.com

一言蔽之,大模型好不好,用一下就知道了。UrI28资讯网——每日最新资讯28at.com

并且基于豆包大模型打造的同名产品豆包APP,已成为国内受欢迎的AIGC类应用。UrI28资讯网——每日最新资讯28at.com

这一点上,从量子位智库所汇总的智能助手“APP下载总量”和“APP月新增下载总量”便可一目了然——UrI28资讯网——每日最新资讯28at.com

豆包,均拿下第一。UrI28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-97821-0.html豆包文科成绩超了一本线:为什么理科不行

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软回应关闭所有线下授权门店:已决定对中国大陆市场渠道进行整合

下一篇: 中国地铁站有厕所让老外破防:美国网友感叹干净 里面的水能直接喝

标签:
  • 热门焦点
  • K60至尊版狂暴引擎2.0加持:超177万跑分斩获性能第一

    Redmi的后性能时代战略发布会今天下午如期举办,在本次发布会上,Redmi公布了多项关于和联发科的深度合作,以及新机K60 Ultra在软件和硬件方面的特性,例如:“K60 至尊版,双芯旗舰
  • JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 摸鱼心法第一章——和配置文件说拜拜

    为了能摸鱼我们团队做了容器化,但是带来的问题是服务配置文件很麻烦,然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比,简单对比下独立配置中心和k8s作为配
  • Flowable工作流引擎的科普与实践

    一.引言当我们在日常工作和业务中需要进行各种审批流程时,可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
  • 品牌洞察丨服务本地,美团直播成效几何?

    来源:17PR7月11日,美团App首页推荐位出现“美团直播”的固定入口。在直播聚合页面,外卖“神枪手”直播间、美团旅行直播间、美团买菜直播间等均已上线,同时
  • ESG的面子与里子

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之三伏大幕拉起,各地高温预警不绝,但处于厄尔尼诺大“烤”之下的除了众生,还有各大企业发布的ESG报告。ESG是“环境保
  • 微博大门常打开,迎接海外画师漂洋东渡

    作者:互联网那些事“起猛了,我能看得懂日语了”。“为什么日本人说话我能听懂?”“中文不像中文,日语不像日语,但是我竟然看懂了”…&hell
  • 三星电子Q2营收60万亿韩元 存储业务营收同比仍下滑超过50%

    7月27日消息,据外媒报道,从三星电子所发布的财报来看,他们主要利润来源的存储芯片业务在今年二季度仍不乐观,营收同比仍在大幅下滑,所在的设备解决方案
  • 超级标准版旗舰!iQOO 11S全球首发iQOO超算独显芯片

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
Top