当前位置:首页 > 元宇宙 > AI

AI 答 IMO 难题坦承“不会”,OpenAI 称“这就是自我意识”

来源: 责编: 时间:2025-08-05 09:21:14 100观看
导读 这一次,“不会”竟成了大模型的高光时刻。虽然在 IMO 第 6 题上得了零分,OpenAI 的金牌模型却展现了“高智商的诚实”。正如 OpenAI 研究员 Noam Brown 在最新访谈中所揭示的:当 IMO 推理模型会在缺乏有效证据时

这一次,“不会”竟成了大模型的高光时刻。F4K28资讯网——每日最新资讯28at.com

虽然在 IMO 第 6 题上得了零分,OpenAI 的金牌模型却展现了“高智商的诚实”。F4K28资讯网——每日最新资讯28at.com

正如 OpenAI 研究员 Noam Brown 在最新访谈中所揭示的:F4K28资讯网——每日最新资讯28at.com

当 IMO 推理模型会在缺乏有效证据时表示“我不确定”,这会显著减少隐藏错误。F4K28资讯网——每日最新资讯28at.com

F4K28资讯网——每日最新资讯28at.com

在 AI 摘下 IMO 金牌后,OpenAI 金牌小分队成员 Alex Wei、Sheryl Hsu 和 Noam Brown 参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层突破。F4K28资讯网——每日最新资讯28at.com

有网友帮忙总结了个太长不看版:F4K28资讯网——每日最新资讯28at.com

与过去那些“看起来完美,实则错误”的幻觉式答案不同,这一代大模型开始学会“承认自己不会”。F4K28资讯网——每日最新资讯28at.com

它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有“自我认意识”的全新阶段。F4K28资讯网——每日最新资讯28at.com

F4K28资讯网——每日最新资讯28at.com

三位成员还在这场对话中,分享了更多关于冲刺 IMO 的有趣细节。F4K28资讯网——每日最新资讯28at.com

IMO 金牌模型能承认自己不知道

尽管数学家与计算机科学家一致认可 IMO 金牌模型的价值。F4K28资讯网——每日最新资讯28at.com

但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。F4K28资讯网——每日最新资讯28at.com

他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。F4K28资讯网——每日最新资讯28at.com

F4K28资讯网——每日最新资讯28at.com

IMO 第 6 题让大模型全军覆没,当然,OpenAI 也对其进行了大量计算。F4K28资讯网——每日最新资讯28at.com

有一个由 2025×2025 个单位正方形组成的网格。Matilda 希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。F4K28资讯网——每日最新资讯28at.com

网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出 Matilda 需要放置的最少瓷砖数量。F4K28资讯网——每日最新资讯28at.com

F4K28资讯网——每日最新资讯28at.com

虽然投入海量算力最终仅得到一句“我无法回答”令人有些失望,但 Alex Wei 表示:F4K28资讯网——每日最新资讯28at.com

能看到模型避免产生幻觉是很好的。F4K28资讯网——每日最新资讯28at.com

Noam Brown 也对模型的这一转变表示赞赏,“如果它不知道,它就会承认它不知道。”F4K28资讯网——每日最新资讯28at.com

这代表模型开始具备“自我意识”。F4K28资讯网——每日最新资讯28at.com

这种“自我意识”可以帮助模型在面对困难问题时,承认自己的无能为力,而不是生成一个看似合理实则错误的解决方案。F4K28资讯网——每日最新资讯28at.com

有趣的是,在 Alex Wei 2024 年刚加入 OpenAI 一周时,Noam Brown 就曾问过他,团队何时能获得 IMO 金牌。F4K28资讯网——每日最新资讯28at.com

当时 Alex Wei 认为 2025 年不太可能实现。F4K28资讯网——每日最新资讯28at.com

但令人惊叹的是,这个三人团队仅用了两月,就完成了他们一直在追求的目标 ——IMO 金牌。F4K28资讯网——每日最新资讯28at.com

Noam Brown 还表示:F4K28资讯网——每日最新资讯28at.com

OpenAI 有一个很棒的地方,就是研究人员有很大的自主权去做他们认为有影响力的研究。F4K28资讯网——每日最新资讯28at.com

Alex 还强调,他们的团队“真正优先考虑通用技术”,而不是专门开发用于数学竞赛的系统。F4K28资讯网——每日最新资讯28at.com

OpenAI IMO 金牌核心团队

OpenAI IMO 核心团队仅由三名研究人员构成。F4K28资讯网——每日最新资讯28at.com

F4K28资讯网——每日最新资讯28at.com

Alex Wei,本硕均就读于哈佛大学,随后在加州大学伯克利分校获得计算机科学博士学位。F4K28资讯网——每日最新资讯28at.com

Alex 还曾在谷歌、微软和 Meta 实习,后于 2024 年 1 月加入 OpenAI,现任研究科学家。他曾是 FAIR 团队成员,参与开发了首个用于外交游戏的人类级人工智能 ——CICERO。F4K28资讯网——每日最新资讯28at.com

F4K28资讯网——每日最新资讯28at.com

Sheryl Hsu,毕业于斯坦福大学计算机科学专业,是斯坦福 AI 实验室中 IRIS 实验室的研究员,于 2025 年 3 月加入 OpenAI。F4K28资讯网——每日最新资讯28at.com

F4K28资讯网——每日最新资讯28at.com

Noam Brown,本科就读于美国罗格斯新泽西州立大学新布朗斯维克分校,随后在卡内基・梅隆大学获硕士和博士学位。他曾任职于 DeepMind 和 Meta,于 2023 年 6 月加入 OpenAI。F4K28资讯网——每日最新资讯28at.com

参考链接:F4K28资讯网——每日最新资讯28at.com

[1]https://x.com/chatgpt21/status/1950606890758476264F4K28资讯网——每日最新资讯28at.com

[2]https://www.youtube.com/watch?v=EEIPtofVe2QF4K28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:时令F4K28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-25816-0.htmlAI 答 IMO 难题坦承“不会”,OpenAI 称“这就是自我意识”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 教育负责人呼吁:学生应将 ChatGPT 视为工具而非“答题机器”

下一篇: 昆仑万维发布并开源全新推理大模型 MindLink,基于 Qwen3-32B 和 Qwen2.5-72B 进行后训练

标签:
  • 热门焦点
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 元娲2.7上线:虚拟人视频制作速度疯狂翻倍!

    来源:清元宇宙 炎炎夏日努力工作的Q仔的电脑都冒烟儿啦~今天要给大家介绍两个新小伙伴——小元和小娲,他们将给大家解读元娲2.7版本重磅更新内容~大家掌声欢迎~~~本次更
  • 数字人的AB面:在元宇宙中过气,在AIGC中重生

    来源:光锥智能作者:郝 鑫“29800元一年的虚拟主播,号称24小时不停播,月入十几万,实际上却是关键词都不能回复,播了半个月,直播间还因违规被快手封禁,最终投诉无门、退款无果。&
  • 从NFT顶级公链到Web3.0基础设施:带你了解不一样的Flow

    对于大部分年轻人来说,刚刚过去的春节有一个词语突然成为了品牌宣传的流行语,作为从NFT中衍生出来的“数字藏品”一时间获得了不少品牌青睐,他们纷纷推出自己的数
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
  • 我们为什么需要Web3,距离Web3的实现还有多远?

    当今技术正在经历着重要的变革,许多公司正在改变他们的经营模式以求变得更加的灵活,其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3,
  • 初探元宇宙

    2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中,被称为“元宇宙”第一股后,Facebook更名为Meta, 引发全球范围内
  • 售出6930万美元的NFT已经过去一年,NFT如今是否已成为主流?

    Everydays: the First 5000 Days/Beeple去年三月,一件艺术品被著名拍卖行佳士得以6930万美元的高价售出。而让人们感到震惊的是,这个拍卖作品不是出自哪位艺术大
Top