当前位置：首页 > 科技 > 网络

豆包文科成绩超了一本线：为什么理科不行

来源：责编：时间：2024-07-01 17:11:20 260观看

导读什么？好多大模型的文科成绩超一本线，还是卷的河南省？？？△图源：极客公园没错，近就有这么一项大模型“高考大摸底”评测走红了。河南高考文科今年的一本线是521分，根据这项评测，共计四个大模型大于或等于这

什么？好多大模型的文科成绩超一本线，还是卷的河南省？？？

豆包文科成绩超了一本线：为什么理科不行 △图源：极客公园

没错，近就有这么一项大模型“高考大摸底”评测走红了。

河南高考文科今年的一本线是521分，根据这项评测，共计四个大模型大于或等于这个分数，其中头两名值得关注：

GPT-4o：562分

字节豆包：542.5分

……

从结果中来看，GPT-4o的表现依旧是处于领先状态，而在国产大模型这边，比较亮眼的成绩便属于豆包了。

并且在语文和历史等科目的成绩甚至还超越了GPT-4o。

这也让不少网友纷纷感慨：

AI文科成绩这么好，看来在处理语言和逻辑上还是很有优势的。

豆包文科成绩超了一本线：为什么理科不行

不过有一说一，毕竟国产大模型的竞争是如此之激烈，这份评测的排名真的靠谱吗？发布仅数月的豆包，真具备此等实力吗？以及这数学……又是怎么一回事儿？

先看评测榜单

要回答上述的问题，我们不妨先来查一查豆包在新的权威评测榜单中的表现是否一致。

首先有请由智源研究院发布的FlagEval（天秤）。

它的评测方式是这样的：

对于开源模型， FlagEval会综合概率选择和自由生成两种方式来评测，对于闭源模型， FlagEval只采用自由生成的方式来评测，两种评测方式区别参照。

主观评测时部分闭源模型对极小部分题目有拒绝回答的情形，这部分题目并没有计入能力分数的计算。

在“客观评测”这个维度上，榜单成绩如下：

豆包文科成绩超了一本线：为什么理科不行

不难看出，这一维度下的FlagEval中，前四名的成绩是与“高考大摸底”的名次一致。

大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。

并且豆包在“知识运用”和“数学能力”两个维度上成绩还高于第一名的GPT-4。

若是将评测方式调节至“主观评测”，那么结果是这样的：

豆包文科成绩超了一本线：为什么理科不行

此时，百度的大模型跃居到了第一名，而字节的豆包依旧是稳居第二的成绩。

由此可见，不论是主观还是客观维度上，前几位的名次都是与“高考大摸底”的成绩是比较接近的。

接下来，我们再来有请另一个权威测评——OpenCompass（司南）。

豆包文科成绩超了一本线：为什么理科不行

在新的5月榜单中，豆包的成绩也是仅次于OpenA家的大模型。

同样的，在细分的“语言”和“推理”两个维度中，豆包还是超越了GPT-4o和GPT-4 Turbo。

豆包文科成绩超了一本线：为什么理科不行

但与专业评测冷冰冰的分数相比，人们都对高考有着更深刻的体验和记忆。

那么接下来我们就通过豆包回答高考题，来看看大模型在应对人类考试时的具体表现。

再看实际效果

既然目前许多试卷的题目都已经流出，我们不妨亲测一下豆包的实力。

例如让它先写一篇新课标I卷语文的作文题目：

随着互联网的普及、人工智能的应用，越来越多的问题能很快得到答案。那么，我们的问题是否会越来越少？

以上材料引发了你怎样的联想和思考？请写一篇文章。

要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。

豆包文科成绩超了一本线：为什么理科不行 △结果由豆包PC端对话生成

从豆包的作答上来看，是已经摆脱了AI写作文经常犯的“首先-其次-以及-后”这种模板式的写法，也擅长引经据典来做论证。

但毕竟每个人对于文笔的审美标准不同，因此豆包高考作文写得如何，评价就交给你们了（欢迎在留言区讨论）。

值得一提的是，在量子位向豆包团队询问后得知，原来豆包PC端对话和手机端“拍题答疑”是两种截然不同的招式——

前者走的是LLM链路，后者走的则是RAG链路（若是用豆包手机端“拍题答疑”功能，高考数理化成绩也能接近满分）。

加上在这次“高考大摸底”评测出炉之后，很多网友们都将关注的重点聚焦到了数学成绩上：

AI也怕数学。

豆包文科成绩超了一本线：为什么理科不行

因此，接下来的实际效果测试，我们就将以“LLM链路+数学”的方式来展开。

先拿这次的选择题来小试牛刀一下：

豆包文科成绩超了一本线：为什么理科不行

当我们把题目在PC端“喂”豆包之后，它的作答如下：

豆包文科成绩超了一本线：为什么理科不行

因此，豆包给出的答案是：

A、C、D、D、B、B、A、A

这里我们再来引入排名第一选手GPT-4o的作答：

A、D、B、D、C、A、C、B

豆包文科成绩超了一本线：为什么理科不行

而根据网上目前多个信源得到的标准答案是：A、C、D、A、B、B、C、B。

对比来看，豆包对5道，GPT-4o答对4道。

而对于更多的数学题的作答，其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试（所有大模型只能依靠LLM推理答题，不能通过RAG检索答案）：

豆包文科成绩超了一本线：为什么理科不行

豆包文科成绩超了一本线：为什么理科不行 △图源：复旦大学自然语言处理实验室

由此可见，大模型并不能完全hold住高考数学题目，并且不同人生成答案的结果也会出现偏差。

并且量子位在反复测试后发现，豆包对话答题时有一定随机性，多轮测试时的结果并不完全一样。上文只取样其中一轮的结果。

这也正如广大网友所反馈的那般——大模型文科强、理科弱。

对此，技术圈也已经有一些讨论和解释：

大语言模型的基本原理是“文字接龙”，通过预测下一个token来生成内容，每次预测都有随机性和概率分布。

当大语言模型学习了海量知识数据，天然就适应考验记忆能力和语言运用的文科考试。

但理科考试主要考验推理和计算，比如一道数学题包含5步推理和5步计算，假设大语言模型每一步预测准确的概率都有90%，综合下来的准确率就只有35%。

另一方面，理科语料比较稀缺。大模型的训练数据中，文科语料要远远大于理科语料。这也是大模型更擅长文科的一个原因。

大模型都在努力提升智能水平，主要目标就是提高推理和计算能力。目前学界对此存在争议，有观点认为，“预测下一个token”本身就包含了推理，计算也是一种推理。

只要Scaling Law生效，大模型性能持续提升，推理和计算能力就能够提升；但也有反对者（如Yann LeCun）认为，大语言模型缺乏真正的规划推理能力，其涌现能力实际上是上下文学习的结果，主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI，目前还没有定论。

那是不是大模型就不适合用户来解数学题了呢？

也并不全是。

正如刚才所说，如果用豆包手机端的“拍题答疑”，也就是RAG链路的方式，那么结果的“打开方式”就截然不同了。

我们可以先用豆包APP对着题目拍照，让它先进行识别：

豆包文科成绩超了一本线：为什么理科不行

结果就是——全对！

豆包文科成绩超了一本线：为什么理科不行

至于更多类型题目大模型们的表现会如何，友友们可以拿着感兴趣的题目自行测试一番了。

如何评价？

从“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等评测上可以看到，豆包大模型已经稳稳进入国产第一梯队。

但随即而来的一个问题便是，过去一年多异常低调的豆包，是如何在短短一个月内就开始爆发的？

其实早在发布之际，豆包与其它大模型厂商截然不同的路径就已经有所体现，归结其背后的逻辑就是：

只有大的使用量，才能打磨出好的大模型。

据了解，豆包大模型在5月15日正式发布时，其每天平均处理的token数量高达1200亿，相当于1800亿的汉字；每天生成图片的数量为3000万张。

不仅如此，豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。

因此，我们可以把豆包在大模型性能上的路数，视为用“左手使用量，右手多场景”的方式反复打磨而来。

一言蔽之，大模型好不好，用一下就知道了。

并且基于豆包大模型打造的同名产品豆包APP，已成为国内受欢迎的AIGC类应用。

这一点上，从量子位智库所汇总的智能助手“APP下载总量”和“APP月新增下载总量”便可一目了然——

豆包，均拿下第一。

文章出处：量子位

本文链接：http://www.28at.com/showinfo-17-97821-0.html豆包文科成绩超了一本线：为什么理科不行

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：微软回应关闭所有线下授权门店：已决定对中国大陆市场渠道进行整合

下一篇：中国地铁站有厕所让老外破防：美国网友感叹干净里面的水能直接喝

标签：

热门焦点

俄罗斯：将审查iPhone等外国公司设备保数据安全

iPhone和特斯拉都属于在各自领域领头羊的品牌，推出的产品也也都是数一数二的，但对于一些国家而言，它们的产品可靠性和安全性还是在限制范围内。近日，俄罗斯联邦通信、信息技术
7月安卓手机性能榜：红魔8S Pro再夺榜首

7月份的手机市场风平浪静，除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外，别的也想不到有什么新品了，这也正常，通常6月7月都是手机厂商修整的时间，进入8月份之
新电商三兄弟，“抖快红”成团！

来源：价值研究所作者：Hernanderz 随着内容电商的概念兴起，抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力，给阿里、京东、拼多多带去了巨大压
大厂卷向扁平化

来源：新熵作者丨南枝编辑丨月见大厂职级不香了。俗话说，兵无常势，水无常形，互联网企业调整职级体系并不稀奇。7月13日，淘宝天猫集团启动了近年来最大的人力制度改革，目前已形成一
三星折叠屏手机去年销售近1000万台今年目标定为1500万

7月29日消息，三星率先发力可折叠手机市场，在全球市场已经取得了非常亮眼的成绩，接下来会进一步巩固和扩大这一优势。三星在推出Galaxy Z Flip5和Galax
3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro两个版本，其中标准版搭载高通骁龙8+，而Pro版更是首发搭载了联发科天玑9200+旗舰
OPPO K11评测：旗舰级IMX890加持 2000元档最强影像手机

【Techweb评测】中端机型用户群体巨大，占了中国目前手机市场的大头，一直以来都是各手机品牌的“必争之地”，其中OPPO K系列机型一直以来都以高品质、
英特尔Xe-HP项目终止，将专注Xe-HPC/HPG系列显卡

据10 月 31 日消息报道，英特尔高级副总裁兼加速计算系统和图形事业部总经理表示，Xe-HP“ Arctic Sound” 系列服务器 GPU 已经应用于 oneAPI devcloud 云服
Meta盲目扩张致超万人被裁，重金押注元宇宙而前景未明

图片来源：图虫创意日前，Meta创始人兼CEO 马克·扎克伯发布公开信，宣布Meta计划裁员超11000人，占其员工总数13%。他公开承认了自己的预判失误：“不仅

豆包文科成绩超了一本线：为什么理科不行

俄罗斯：将审查iPhone等外国公司设备保数据安全

7月安卓手机性能榜：红魔8S Pro再夺榜首

新电商三兄弟，“抖快红”成团！

大厂卷向扁平化

三星折叠屏手机去年销售近1000万台今年目标定为1500万

3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

OPPO K11评测：旗舰级IMX890加持 2000元档最强影像手机

英特尔Xe-HP项目终止，将专注Xe-HPC/HPG系列显卡

Meta盲目扩张致超万人被裁，重金押注元宇宙而前景未明

最新推荐

猜你喜欢

热门推荐

相关资讯