当前位置:首页 > 元宇宙 > AI

OpenAI 研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励 AI“瞎蒙”

来源: 责编: 时间:2025-09-09 11:32:41 79观看
导读 9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。注:所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。OpenAI

9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。ca028资讯网——每日最新资讯28at.com

ca028资讯网——每日最新资讯28at.com

注:所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。ca028资讯网——每日最新资讯28at.com

OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。ca028资讯网——每日最新资讯28at.com

不过,不同模型的表现差别明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。ca028资讯网——每日最新资讯28at.com

研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”ca028资讯网——每日最新资讯28at.com

结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。ca028资讯网——每日最新资讯28at.com

研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”ca028资讯网——每日最新资讯28at.com

其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”ca028资讯网——每日最新资讯28at.com

OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”ca028资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27421-0.htmlOpenAI 研究人员宣称已破解模型“幻觉”难题:现有评估方式在鼓励 AI“瞎蒙”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 商汤日日新为 Claude API 用户提供“搬家”服务:可获 5000 万 Tokens 体验包

下一篇: 商汤大装置与华为昇腾 384 超节点全面适配,多项创新提升训练效率

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 大厂元宇宙,又菜又爱玩

    撰文 | 吴先之 编辑 | 王 潘当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。以Meta为例,由于VR头显设
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • “元宇宙第一股”Roblox缘何被资本市场看“低”?

    近期,冬奥会的召开受到广泛关注,而吉祥物冰墩墩也成为新晋“顶流”,“一墩难求”成为普遍心声,为了满足大众需求,nWayPlay平台曾在2月12日发售了一款由国际奥委会官
  • 传统互联网与区块链场景下数据权利法律分析

    数据权益的复杂性在于数据涉及多环节多主体、内容不同质且与不同场景紧密联系、对软硬件技术环节紧密相关等方面的复杂性。在传统互联网与区块链模式下,数据处
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

    前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo,该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
  • 独立故事片“Calladita”将使用 NFT 筹集资金

    导演 Miguel Faus 正在转向加密来资助他的处女作,由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”(导演 Miguel Faus)。图片:米格尔·福斯在过去的一年
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
Top