当前位置：首页 > 元宇宙 > AI

谷歌推出“BIG-Bench Mistake”数据集，助力语言模型纠错能力提升

来源：责编：时间：2024-01-15 17:09:20 345观看

导读1月15日消息，近日，谷歌研究院公布了一项新的研究成果，他们利用自家BIG-Bench基准测试构建了一个名为“BIG-BenchMistake”的数据集。该数据集的主要目的是评估当前市场上流行的语言模型在“出错概率”及“纠错能力”方面

1月15日消息，近日，谷歌研究院公布了一项新的研究成果，他们利用自家BIG-Bench基准测试构建了一个名为“BIG-BenchMistake”的数据集。该数据集的主要目的是评估当前市场上流行的语言模型在“出错概率”及“纠错能力”方面的表现。

此前，对于大型语言模型的错误识别和自我修正能力的评估一直缺乏有效的数据集。为了填补这一空白，谷歌研究人员精心设计了“BIG-BenchMistake”专用基准数据集。他们首先使用PaLM语言模型在BIG-Bench基准测试中执行了五项任务，并在其生成的“思维链”中故意引入逻辑错误。然后，这些包含错误的思维链被重新提交给模型，以测试其能否识别出其中的错误。

经过多轮迭代和优化，研究人员最终构建了一个包含255项逻辑错误的“BIG-BenchMistake”数据集。这些错误被设计成简单明了的形式，以便于语言模型从基本的逻辑错误开始逐步提高其错误识别能力。

据ITBEAR科技资讯了解，谷歌研究人员利用该数据集对市场上的多个语言模型进行了测试。结果显示，虽然大多数模型能够在一定程度上识别并修正推理过程中的逻辑错误，但这一过程往往不够理想，仍需要人工干预来完善模型的输出。

在测试中表现最好的模型也仅能识别出52.9%的逻辑错误，这表明即便是目前最先进的大型语言模型在自我纠错方面仍存在较大提升空间。谷歌研究人员认为，“BIG-BenchMistake”数据集将有助于改进模型的自我纠错能力。通过针对相关测试任务进行微调，即便是小型模型也能在监督大型模型时表现出更好的性能。

因此，谷歌提出了一种新的思路，即使用专用的小型模型来监督大型模型的运行。这种做法不仅有利于提高效率、降低AI部署成本，还能更方便地对模型进行微调。未来，这种大小模型协同工作的方式或许将成为提升AI性能的重要方向之一。

标签：谷歌

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

举报 0收藏 0打赏 0评论 0

更多>同类资讯

CES 2024新奇发现：AI音乐为狗狗减压，每月仅需48元

1月11日消息，近日，在备受瞩目的CES 2024展会上，一款专门为狗狗设计的AI音乐引起了广泛关注。推出这款产品的是日本一家新兴初创企业。据悉，这家名为“One by One Music”的公司，通过与持有兽医执照的教授和医生共同开展研究，经过长达两年的深入

01-11

沃尔玛在CES 2024宣布与微软合作，以AI技术重塑数字购物体验

1月11日消息，近日，在备受瞩目的CES 2024国际消费电子展上，美国零售业巨头沃尔玛罕见亮相，并与科技巨头微软携手，共同宣布将打造一种全新的AI驱动的购物体验。沃尔玛首席执行官Doug McMillon在展会的主题演讲中详细阐述了这一创新举措。他表示，沃

01-11

OpenAI推出ChatGPT Team订阅服务

1月11日消息，人工智能领域的领军企业OpenAI近日宣布，针对员工人数在150人以下的小型企业团队，推出了一项全新的订阅服务——ChatGPT Team。根据该计划，每位用户每月的费用在按年计费时为25美元，按月计费时则为30美元。此前，OpenAI已经为个人用户

01-11

OpenAI推出GPT Store，聊天机器人销售与共享新平台下周亮相

1月5日消息，OpenAI近日向GPT Builders的签约人员发送了一封电子邮件，宣布GPT Store即将在下周亮相。这一新平台将允许用户销售和共享基于OpenAI大型语言模型的聊天机器人(GPT)，为开发者提供了一个全新的创收途径，其收入将直接与他们的GPT使用量挂

01-05

OpenAI出价百万美元求新闻授权，小型出版商不买账

1月5日消息，近日有报道称，人工智能领域的领军企业OpenAI正在与多家媒体公司展开授权谈判。据两位参与谈判的高管透露，OpenAI提出的价格范围在每年100万至500万美元之间，以获得利用新闻内容训练其大型语言模型的权限。然而，这一价格对于一些小型出

01-05

谷歌AI语言模型Bard升级版“Bard Advanced”即将上线，提供全面优质服务体验

1月5日消息，据最新报道，谷歌正在积极筹备推出其AI语言模型Bard的升级版——Bard Advanced。此举类似于先前推出的ChatGPT Plus付费订阅服务，旨在提供更为全面和优质的服务体验。Bard作为谷歌的AI语言模型，已经为用户提供了广泛的信息交互和智能响

01-05

微软 Edge 重塑身份，全新命名为“微软 Edge：AI 浏览器”

1月3日消息，微软日前对其移动浏览器进行了一次重大改名，将其安卓和 iOS 平台的“微软 Edge”更名为“微软 Edge：AI 浏览器”，着重突显其对人工智能领域的强烈关注。这款重新命名的浏览器不仅仅有了崭新的名字，而且在App Store和Google Play Store

01-03

英伟达斥巨资锁定HBM3内存供应，确保AI与HPC GPU稳定推出

12月31日消息，据韩国Chosun Biz最新报道，英伟达在积极预定台积电产能的同时，还斥资巨大与美光和SK海力士签下了HBM3内存的供应大单。知情人士透露，英伟达此次预购的HBM3内存规模在700亿至1万亿韩元之间。尽管具体细节尚未公布，但市场普遍分析认为

12-31

提示词工程：人工智能时代的关键技能与人际沟通的融合

12月29日消息，如果你是一名引导人工智能产出的专家，即提示词工程师，负责优化如ChatGPT这样的聊天机器人的响应，那么你可能会享受到相当可观的报酬。尽管如此，来自OpenAI的内部人士指出，这项技术并非如外界想象的那样充满魔力。近日，OpenAI的一

12-29

LG推出创新双轮腿智能家居AI机器人，CES 2024引领未来家居革命

12月28日消息，LG电子今日宣布在即将到来的CES 2024展会上推出了一款引人注目的智能家居AI机器人。这款智能机器人采用了创新性的“双轮腿”设计，具备独立移动的能力，可以连接和控制智能家电以及家庭物联网设备，同时与用户进行互动。据ITBEAR科技资

12-28

谷歌发布全新AI SDK，助力Android应用集成Gemini Pro模型

12月26日消息，近日，谷歌发布了全新的Google AI SDK，旨在为Android应用程序集成其高性能的Gemini Pro模型提供更加便捷的解决方案，从而无需开发人员建立和管理后端基础架构。据了解，Gemini Pro是谷歌最强大的模型之一，可处理各种文本和图像推理任

12-26

人工智能胜过人类？研究揭示ChatGPT的优势

12月26日消息，最新的研究结果显示，ChatGPT 提供的建议在平衡性、全面性、人性化以及实用性等方面，明显优于人类专家的回答。一项由墨尔本大学和西澳大利亚大学的研究团队进行的研究，随机选取了50个社会困境问题，然后邀请了404名志愿者进行盲测，

12-26

微软必应聊天全新升级：GPT-4 Turbo模型免费体验

12月25日消息，近期有来自Windowslatest的报道称，微软在其必应聊天服务中引入了基于OpenAI最新技术的GPT-4 Turbo模型，目前该模型已向一些随机选中的用户无偿开放。这一升级旨在提供一个更加智能、流畅且有趣的对话体验。同时，微软也在计划对必应聊

12-25

苹果发布开源多模态LLM Ferret，意外加入人工智能社区

12月25日消息，苹果公司与哥伦比亚大学的研究团队于2023年10月发布了一款名为Ferret(雪貂)的多模态开源LLM，然而，当时这一新闻并未引起广泛的注意。许多人工智能领域的从业者错过了Ferret的发布，他们对苹果进入开源LLM领域感到意外，尤其考虑到苹果

12-25

OpenAI宣布GPT-5即将来袭：2024年技术大蓝图揭晓

12月25日消息，OpenAI的联合创始人兼CEO Sam Altman近日宣布了一项令人振奋的消息：GPT-5即将到来!在一个充满期待的声明中，Altman揭露了OpenAI对2024年的宏大蓝图，它不仅包括了备受瞩目的GPT-5的推出，而且还涉及了一系列创新的提升和扩展计划。这

12-25

点击查看更多 +

全站最新

小米科技再显创新力，连续注册多个重磅商标并研发出环保泰坦合金

鸿蒙智行社区发布智界S7关爱补贴计划，回馈特定用户群体

深蓝G318全新SUV曝光，预计30万起售，配备增程式动力及拖挂资质

预售倒计时！东风日产探陆携7座6座布局，或成家庭出行新宠

数字赋能提速增效柯尼卡美能达为法院/律所行业注入智慧办公新动能

鸿蒙新篇章：华为深圳举办千帆启航仪式，原生应用全面铺开

热门内容

ChatGPT免费语音功能全面开放：解锁AI与用户的自然对话
微软必应聊天全新升级：GPT-4 Turbo模型免费体验
微软 Edge 重塑身份，全新命名为“微软 Edge：AI 浏览器”
LG推出创新双轮腿智能家居AI机器人，CES 2024引领未来家居革命
微软AI Copilot与Suno合作：文字变成音乐的魔法
谷歌发布全新AI SDK，助力Android应用集成Gemini Pro模型
Microsoft Copilot 即将推出置顶聊天对话功能：最多置顶 15 条
OpenAI宣布GPT-5即将来袭：2024年技术大蓝图揭晓
人工智能胜过人类？研究揭示ChatGPT的优势
苹果发布开源多模态LLM Ferret，意外加入人工智能社区
Stability AI 推出会员订阅计划，Stable Diffusion 模型全面升级
国家大模型标准测试首批通过名单揭晓，阿里通义千问与腾讯混元领衔
OpenAI出价百万美元求新闻授权，小型出版商不买账
OpenAI推出ChatGPT Team订阅服务
提示词工程：人工智能时代的关键技能与人际沟通的融合

本栏最新

CES 2024新奇发现：AI音乐为狗狗减压，每月仅需48元

沃尔玛在CES 2024宣布与微软合作，以AI技术重塑数字购物体验

OpenAI推出ChatGPT Team订阅服务

OpenAI出价百万美元求新闻授权，小型出版商不买账

微软 Edge 重塑身份，全新命名为“微软 Edge：AI 浏览器”

英伟达斥巨资锁定HBM3内存供应，确保AI与HPC GPU稳定推出

本文链接：http://www.28at.com/showinfo-45-3283-0.html谷歌推出“BIG-Bench Mistake”数据集，助力语言模型纠错能力提升

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：酷冷至尊CES 2024创新展示：双风扇颠覆显卡散热市场

下一篇：手回科技集团荣登甪端企业20榜单，用科技力量赋能保险生态

标签：

热门焦点

VR/AR迷失元宇宙“硝烟”

不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵，又随着元宇宙回归平静。1月份，微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员，其中负责混合现实硬件（MR）的Holo
“啫喱”超越微信登顶：首款“元宇宙社交App”会昙花一现吗？

作者| 赤木瓶子如何终结“昙花一现”的命运，是潮流社交产品的长期命题，如今，在元宇宙浪潮的洗礼下，这一命题正在迎来新的可能性。近段时间，一款名为“啫喱”的社交A
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
万字专访Vitalik Buterin：以太坊将成为主流和最安全的基础层

Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面，即创建一个“世界计算机”，旨在成为所有在线应用程序的灵活基础层，无需任何第三方。自 2015
从NFT顶级公链到Web3.0基础设施：带你了解不一样的Flow

对于大部分年轻人来说，刚刚过去的春节有一个词语突然成为了品牌宣传的流行语，作为从NFT中衍生出来的“数字藏品”一时间获得了不少品牌青睐，他们纷纷推出自己的数
元宇宙是数字共识生态的集成逻辑表达

作者: 李鸣元宇宙是数字共识生态的集成逻辑表达，是以区块链技术为核心的可信数字化价值交互网络，是基于Web3.0技术体系和运作机制支撑下的数字新生态。本体论是
2022年元宇宙系列报告：UGC当道，XR带来新交互体验

UGC作为元宇宙的主要内容创作模式，已经越来越多的呈现于游戏、娱乐、社交、传媒等方面，UGC模式勾勒了元宇宙的边界，现今元宇宙UGC模式的主要呈现方式以元宇宙概念
Terra链上TVL跃升至第二

据DefiLlama数据显示，当前,Terra链上应用锁仓的加密资产价值（TVL）为172.1亿美元，在公链板块中已跃升至第二，超越了币安智能链TVL的118亿美元，TVL排名居首的仍为以太
a16z：元宇宙办公会取代实体办公室吗？

6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界，大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

谷歌推出“BIG-Bench Mistake”数据集，助力语言模型纠错能力提升

VR/AR迷失元宇宙“硝烟”

“啫喱”超越微信登顶：首款“元宇宙社交App”会昙花一现吗？

比特币的价格越高，使用价值越大

万字专访Vitalik Buterin：以太坊将成为主流和最安全的基础层

从NFT顶级公链到Web3.0基础设施：带你了解不一样的Flow

元宇宙是数字共识生态的集成逻辑表达

2022年元宇宙系列报告：UGC当道，XR带来新交互体验

Terra链上TVL跃升至第二

a16z：元宇宙办公会取代实体办公室吗？

最新推荐

元宇宙里掀起回忆杀？这波虚拟怀旧营销主打一个极限反差

2022年最具关注的9个头像NFT项目

NFT教育要从娃娃抓起！这些青少年艺术家已经赚取了几千万美金

Interface正大光明的“跑路”，社区成员赞格局大

Meta 在衰落吗？

MR——元宇宙平台的下一代入口

猜你喜欢

热门推荐

相关资讯