当前位置:首页 > 科技  > 网络

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

来源: 责编: 时间:2025-05-20 10:04:03 144观看
导读 拷打AI的难度还在升级?这不,图像推理又出现了新难题。该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整

拷打AI的难度还在升级?这不,图像推理又出现了新难题。1hQ28资讯网——每日最新资讯28at.com

该问题在Reddit上引起热议:目前没有任何AI能真正解决复杂推理问题。1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

问题定义其实非常简单——在下图中还需要添加多少个小立方体能形成一个完整的大立方体?1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

针对这一难题,国内外支持图像输入的大模型纷纷给出了不同的答案。1hQ28资讯网——每日最新资讯28at.com

其中,o3给出的答案是45个,Gemini 2.5Pro给出的答案仅有10个。1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

而国内大模型,如DeepSeek、Qwen3的答案分别为14和9。1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

出现这些不同答案的原因是什么呢?请往下看。1hQ28资讯网——每日最新资讯28at.com

为什么会出现不同的答案1hQ28资讯网——每日最新资讯28at.com

核心原因:大模型对组成的大立方体的规格理解不同。1hQ28资讯网——每日最新资讯28at.com

o3将终组成的大立方体的规格理解为5x5x5,但它对于缺失的小立方体的数目仍旧给出了错误答案,用人类视觉来看,要形成5x5x5的大立方体需要125个小立方体,而图中已经给出了46个,所以答案应该为79。1hQ28资讯网——每日最新资讯28at.com

而AI的错误源于它对图片中小立方体的结构和数目的分析错误。1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

Gemini 2.5 Pro将终组成的大立方体的规格理解为4x4x4。1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

而DeepSeek和Qwen都将终的大立方体规格设定为了3x3x3。1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

对于终要组成的大立方体的规模理解不同,各大模型自然而然就会给出不同的答案。1hQ28资讯网——每日最新资讯28at.com

不过,结合提示多次尝试,也有大模型能够渐渐找准方向。1hQ28资讯网——每日最新资讯28at.com

网友针对这些错误答案提供了一些解决办法:1hQ28资讯网——每日最新资讯28at.com

例如用o3进行测试,在前两次尝试时给出一些小提示,虽然这样也得到错误答案,但第三次,即使没有提示也得到了正确的结果。1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

网友认为是由于ChatGPT的长期记忆功能,让它记住了前两次尝试的提示(比如考虑长运行中有多少个立方体,专注于严格计数而不是估计),考虑到了失败的经验,并将它们全部整合在一起。1hQ28资讯网——每日最新资讯28at.com

因此,可以说o3会通过记忆来学习。而这道难题也会成为未来的训练数据。1hQ28资讯网——每日最新资讯28at.com

网友:人类也会困惑1hQ28资讯网——每日最新资讯28at.com

有人说,这根本就不是一个推理问题,而是一个视觉理解问题。1hQ28资讯网——每日最新资讯28at.com

出现作者认为的错误答案是由于问题表述不清楚导致AI的分析过程出现了偏差。1hQ28资讯网——每日最新资讯28at.com

甚至人类面对这种问题也会出现类似的困惑,比如题目的要求到底是以原来的排列结构为基础还是可以打乱结构重新排列?1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

并且,如果能够更清晰地为AI解释图片内容(告知其图片中小立方体的排列结构):1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

那么o3得到的答案也是正确的:1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

无论是3x3x3、4x4x4还是5x5x5,或者是NxNxN,人类自己都无法统一答案的问题,对AI来说是不是太难了点!1hQ28资讯网——每日最新资讯28at.com

网友:1hQ28资讯网——每日最新资讯28at.com

AI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊1hQ28资讯网——每日最新资讯28at.com

AI:或许我需要一个更科学的训练方式!1hQ28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接:http://www.28at.com/showinfo-17-151740-0.htmlAI遭遇灵魂拷问!这道题所有模型集体翻车 网友:我也不会啊

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 黄仁勋重磅演讲:Q3推出下一代GB300 将向合作者授权NVLink技术

下一篇: 中国AI大厂 被Deepseek掀了牌桌之后

标签:
  • 热门焦点
  • 小米降噪蓝牙耳机Necklace分享:听一首歌 读懂一个故事

    在今天下午的小米Civi 2新品发布会上,小米还带来了一款新的降噪蓝牙耳机Necklace,我们也在发布结束的第一时间给大家带来这款耳机的简单分享。现在大家能见到最多的蓝牙耳机
  • 天猫精灵Sound Pro体验:智能音箱没有音质?来听听我的

    这几年除了手机作为智能生活终端最主要的核心之外,第二个可以成为中心点的产品是什么?——是智能音箱。 手机在执行命令的时候有两种操作方式,手和智能语音助手,而智能音箱只
  • .NET 程序的 GDI 句柄泄露的再反思

    一、背景1. 讲故事上个月我写过一篇 如何洞察 C# 程序的 GDI 句柄泄露 文章,当时用的是 GDIView + WinDbg 把问题搞定,前者用来定位泄露资源,后者用来定位泄露代码,后面有朋友反
  • “又被陈思诚骗了”

    作者|张思齐 出品|众面(ID:ZhongMian_ZM)如今的国产悬疑电影,成了陈思诚的天下。最近大爆电影《消失的她》票房突破30亿断层夺魁暑期档,陈思诚再度风头无两。你可以说陈思诚的
  • 花7万退货退款无门:谁在纵容淘宝珠宝商家造假?

    来源:极点商业作者:杨铭在淘宝购买珠宝玉石后,因为保证金不够赔付,店铺关闭,退货退款难、维权无门的比比皆是。“提供相关产品鉴定证书,支持全国复检,可以30天无理由退换货。&
  • 大厂卷向扁平化

    来源:新熵作者丨南枝 编辑丨月见大厂职级不香了。俗话说,兵无常势,水无常形,互联网企业调整职级体系并不稀奇。7月13日,淘宝天猫集团启动了近年来最大的人力制度改革,目前已形成一
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 朋友圈可以修改可见范围了 苹果用户可率先体验

    近日,iOS用户迎来微信8.0.27正式版更新,除了可更换二维码背景外,还新增了多项实用功能。在新版微信中,朋友圈终于可以修改可见范围,简单来说就是已发布的朋友圈
  • 亲历马斯克血洗Twitter,硅谷的苦日子在后头

    文/刘哲铭  编辑/李薇  马斯克再次挥下裁员大刀。  美国时间11月14日,Twitter约4400名外包员工遭解雇,此次被解雇的员工的主要工作为内容审核等。此前,T
Top