当前位置:首页 > 元宇宙 > AI

新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几

来源: 责编: 时间:2025-05-20 10:02:12 111观看
导读 5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错成绩,但在日常生活中最基础的“看钟

5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错成绩,但在日常生活中最基础的“看钟”“算日子”这类事情上,却频繁出错 —— 要么读不准指针位置,要么算不出星期几。D8F28资讯网——每日最新资讯28at.com

研究人员在 2025 年“国际学习表征会议”( ICLR )上介绍了这项发现,有关的论文已经在 arXiv 上发布,目前尚未通过同行评审。D8F28资讯网——每日最新资讯28at.com

爱丁堡大学研究员、论文作者 Rohit Saxena 表示:“人类从小就能掌握时间与日历概念,而 AI 在这方面的不足,是一个值得警惕的信号。”他指出,若要将 AI 应用于现实生活中对时间敏感的场景,比如排班、自动化流程或辅助技术,这类基本能力的缺陷必须解决。D8F28资讯网——每日最新资讯28at.com

D8F28资讯网——每日最新资讯28at.com

研究团队向多个具备图文处理能力的大语言模型输入了一组专门制作的时钟与日历图像,受测模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。测试结果显示,这些模型在判断时钟时间或推算日期星期的任务上,正确率都未超过一半。D8F28资讯网——每日最新资讯28at.com

Saxena 表示:“过去的 AI 训练依赖大量带标签的例子,而读时钟需要的是空间推理。模型不仅要识别指针是否重叠,还要理解角度、分辨各种风格的表盘,比如罗马数字或艺术化设计。这远比单纯识别‘这是一个时钟’更复杂。”D8F28资讯网——每日最新资讯28at.com

日历问题同样难住了 AI。例如在“每年第 153 天是星期几”这类问题上,错误率依然居高不下。研究显示,AI 读时钟的正确率仅为 38.7%,判断日历的准确率更低,只有 26.3%。D8F28资讯网——每日最新资讯28at.com

Saxena 解释道:“对传统计算机来说,算术轻而易举,但对大模型而言则不然。AI 并不执行算法,而是依靠从训练数据中学到的模式来预测答案。”他指出,虽然 AI 有时能答对问题,但其推理过程缺乏一致性,也不基于固定规则,这正是研究所揭示的差距。D8F28资讯网——每日最新资讯28at.com

研究还揭示了另一个问题,即当 AI 的训练样本缺乏某类现象时,比如闰年或复杂的日历规则,其表现往往更差。Saxena 表示:“即使模型了解‘闰年’这一概念,也不代表它们能将这个知识正确应用到具体的视觉判断中。”D8F28资讯网——每日最新资讯28at.com

从报道中获悉,研究强调了两个方面的改进方向:一是训练数据应包含更多具有代表性的示例;二是应重新审视 AI 如何整合逻辑推理与空间感知,尤其是在处理不常遇到的任务时。D8F28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13008-0.html新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI携手G42,拟在阿布扎比沙漠打造超摩纳哥规模AI数据中心

下一篇: 蚂蚁集团 CTO 何征宇:大模型幻觉的源头是缺乏数据

标签:
  • 热门焦点
  • 这一超级富豪“逆袭”,身价大增4330亿

    来源:侃见财经互联网的突围没有“终点”。在快节奏的商业环境下,不断的试错成了互联网企业的标配,一年一个风口,一个风口造就一个热点,但是回头来看,最终受益的还是身处
  • 韩国主权基金增加对硅谷初创公司投资 押注元宇宙和人工智能

    韩国投资公司(KIC)CEO Seoungho Jin预计,该公司在旧金山的办事处今年将扩招人手,探索在硅谷投资科技、健康和绿色项目。规模高达2000亿美元的韩国主权财富基金—
  • 2022年6款最佳的NFT稀有度查询工具

    NFT正在风靡全球,但拥有一个你自认为看起来很酷的 NFT 是不够的,因为它还应该是稀有的,稀有度会影响每个 NFT 的价值。因此,如果您打算投资 NFT,则需要使用 NFT 稀
  • 高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    扩展现实(XR)通过计算机将真实与虚拟相结合,打造了一个可人机交互的虚拟环境,将AR、VR、MR多种技术相融合,为体验者带来了虚拟世界与现实世界之间无缝转换的“沉浸
  • “我没搞懂元宇宙,但一天能赚9w块”

    作者:郑宇轩最近几个月,“元宇宙”爆火,除了 Facebook 改名为 Meta 高调进军元宇宙外, BAT 为代表的大厂纷纷着手“元宇宙”新业务。刹那之间,元宇宙成为新风口,除了
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
  • 虚拟偶像行业的商用价值逐渐凸显,IP生态圈也逐渐成型

    六月的第一个周六,一场虚拟偶像七海Nana7mi的个人3D演唱会在万代南梦宫上海文化中心举行,相较于洛天依、百大UP主泠鸢yousa等,这位虚拟Up主在B站上的粉丝数43.6万
Top