当前位置：首页 > 元宇宙 > AI

弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

来源：责编：时间：2024-04-09 17:17:48 326观看

导读离大谱了，弱智吧登上正经 AI 论文，还成了最好的中文训练数据？？具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结

离大谱了，弱智吧登上正经 AI 论文，还成了最好的中文训练数据？？

具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。

在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。

没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：

最离谱的是，弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI，这下吧友自己都闹不明白了。

其他平台围观网友也纷纷蚌埠住。

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所，滑铁卢大学等众多高校、研究机构联合团队。

作者之一也现身评论区，透露使用弱智吧数据训练 AI 属于灵机一动，以前只用来测试。

弱智吧数据究竟如何达成这一成就，具体到论文中看。

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题：

中文数据集很多是从英文翻译过来的，没有很好地契合中文的语言习惯和文化背景

不少数据集是用 AI 生成的，质量难以保证，容易出现事实性错误

即使是人工标注的数据集，也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点，团队从中文互联网的各种知识源头直接收集数据，比如知乎、豆瓣、百科、小红书等，经过一系列严格的清洗和人工审核，打造成高质量、多样化的中文指令微调数据集 COIG-CQIA。

除了探索不同数据源的作用，团队还专门从中抽取出一个精华子集 CQIA-Subset。

在众多数据来源中，弱智吧成了最特别的一个。

由 500 个点赞最高的帖子标题 + 人工或 GPT-4 的回复组成指令微调数据集，经过人工审核后，最终留下了 240 组指令-回复数据对。

分别用各种数据集训练零一万物 Yi 系列开源大模型，在 BELLE-Eval 测试集上使用 GPT-4 评分得到结果。

在规模较小的 Yi-6B 模型上，纯弱智吧版本总分排名第三，还不算太突出。

看来小模型还没能领悟弱智的精髓。

到了 Yi-34B，弱智吧版本表现就一骑绝尘了。

只有在改写和数学任务上没能取得最高分，但成绩也比较靠前。

另外，在安全评估上弱智吧版本也能排上第二。

对于这类现象，研究人员在分析中也给出简单猜测：

可能是弱智吧问题增强了 AI 的逻辑推理能力，从而使指令遵循任务受益。

当然弱智吧并不是这项研究的全部，它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集 COIG-CQIA。

通过对各种中文互联网数据源的探索，这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样，但也存在不少有害信息风险；而百科类数据专业性强，但覆盖面可能不够广。

弱智吧上大分

这项研究一发，网友集体笑不活。除了“XSWL、思路开阔了”这样的纯围观，也有网友认真讨论起了弱智吧有如此奇效的原因。

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。

像脑筋急转弯，增加了指令多样性，所以提升了模型最终性能：

通用数据集多半已经在 pretrain 阶段见过了，再训一遍只会加重 overfitting。

另一个原因是弱智吧数据文本质量很高，用词准确且简洁。

千言万语汇成一句话：把弱智吧只当简单的段子合集真的是严重低估了它的价值！

雀食，要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。

事实上从 ChatGPT 诞生之初，弱智吧就深度参与了大模型的发展，可以算是这一波 AI 浪潮的重要见证者了。

一开始只是网友拿来拷打 AI，搞搞节目效果。

后来大家发现，弱智吧问题中充满陷阱，刚好可以用来分辨 AI 能力高低。

还记得 23 年初那会儿，各家大模型第一版还不太能很好应对这类问题，如 2023 年 3 月的文心一言：

后续版本也渐入佳境了，如 2023 年 8 月的文心一言：

直到今天，弱智吧问题都是每个新发布大模型都必须要过的一关，被戏称为弱智吧 Benchmark。

▲秘塔写作猫

▲Inspo

再后来，AI 公司们自己也开始重视起来，如百度官方就搞过联动直播。

当初网友为了调戏大模型专门搜集的弱智吧问题测试集，没想到有一天也能摇身一变，成了训练集。

思路确实是被打开了～

论文地址：

https://arxiv.org/abs/2403.18058

参考链接：

[1]https://x.com/9hills/status/1775358963724554410

[2]https://zhuanlan.zhihu.com/p/690640864

[3]https://tieba.baidu.com/p/8964992247

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨西风

本文链接：http://www.28at.com/showinfo-45-3906-0.html弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： OpenAI 新动态：改善微调 API，扩展定制模型计划

下一篇：马斯克：特斯拉大模型Grok 2.0版本的性能将好于ChatGPT-4

标签：

热门焦点

元宇宙里卖酸奶，好炸裂的操作！

作者 | 李东阳来源 | 首席营销官有没有发现，当下的热搜出现一个有意思的现象，那就是“情怀”不知不觉成为了主流，爷青回话题讨论性非常高。前有名侦探柯南和优衣库
元宇宙是投资中国的第五次重大机遇

作者为凯思博投资董事长导语：投资逻辑要来自于人性在社会发展过程中的普遍规律，由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天，中国总共经历了
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
元宇宙时代NFT的价值衡量

有人认为NFT的高昂价格只是炒作的产物，并不具有其对等的价值，但其实NFT并不是空中楼阁，只是区块链数字分类账中的一种形式。诚然，目前的NFT仍处于灰色地带，相关的法
美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

No.1 俄罗斯财政部长: 在俄罗斯禁止比特币就如禁止互联网一样2月16日消息，俄罗斯财政部长安东·西卢安诺夫（Anton Siluanov）表示，在俄罗斯禁止加密货币就跟禁止互
餐桌上怎么变出元宇宙？

作者：星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙，看起来风马牛不相及，但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初，全球最大
这个好莱坞影视制作公司涉足NFT，让持有者在制作中发挥作用

前米高梅首席执行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一个新的好莱坞工作室，提供 NFT，让持有者在制作中发挥作用Electromagnetic Productions 创始
FTX 加密货币交易所开始向游戏公司提供加密服务

据媒体报道，业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示，计划推出自己的游戏部门作为中介，专注于为传统游戏公司提供加密相关服务。此举将有助于
Ceramic：为Web3.0社交应用打造的中间件

大家关注老雅痞公众号这么久，对Web3的概念不陌生吧？让我们做一个简短的回顾，Web3主要被描述为去中心化的网络，旨在实现无服务器、去中心化的互联网，即用户掌握自己

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

元宇宙里卖酸奶，好炸裂的操作！

元宇宙是投资中国的第五次重大机遇

比特币的价格越高，使用价值越大

元宇宙时代NFT的价值衡量

美国一区块链风投公司宣布成立2.5亿美元web3投资新基金

餐桌上怎么变出元宇宙？

这个好莱坞影视制作公司涉足NFT，让持有者在制作中发挥作用

FTX 加密货币交易所开始向游戏公司提供加密服务

Ceramic：为Web3.0社交应用打造的中间件

最新推荐

这一超级富豪“逆袭”，身价大增4330亿

“平均时代”：ChatGPT模仿秀的隐喻

避坑指南：远离具有这些特性的NFT

星展银行(DBS)计划推出零售数字资产交易服务

智能人机交互技术的春晚大考

韩国国民银行将推出韩国首个加密货币 ETF

猜你喜欢

热门推荐

相关资讯