当前位置:首页 > 元宇宙 > AI

哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”

来源: 责编: 时间:2025-03-15 14:50:04 199观看
导读 3 月 13 日消息,据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款 AI 搜索引擎展开研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSe

3 月 13 日消息,据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款 AI 搜索引擎展开研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性,并记录了它们拒绝回答问题的频率。J3D28资讯网——每日最新资讯28at.com

J3D28资讯网——每日最新资讯28at.com

研究人员从 20 家新闻机构中随机挑选了 200 篇报道(每家 10 篇),确保它们在谷歌搜索时能排在前三位,然后用相同的查询方式测试各 AI 搜索工具,并评估它们是否正确引用了文章内容、新闻机构名称和原始链接。J3D28资讯网——每日最新资讯28at.com

测试结果显示,除 Perplexity 及其付费版外,其余 AI 搜索引擎的表现都不尽如人意。整体来看,AI 搜索引擎提供的答案有 60% 是不准确的,而且 AI 对错误答案的“自信”反而加剧了问题。J3D28资讯网——每日最新资讯28at.com

这项研究的重要性在于,它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错,还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息,甚至在被质疑时仍然试图自圆其说。J3D28资讯网——每日最新资讯28at.com

即使承认了错误,ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中,几乎是“无论如何都要给出答案”。研究数据支持了这一观点:ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具,但其“完全正确”率仅 28%,而“完全错误”率高达 57%。J3D28资讯网——每日最新资讯28at.com

ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪,其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中,有 104 次拒绝作答,剩下的 96 次中,仅 16 次“完全正确”,14 次“部分正确”,66 次“完全错误”,总体错误率接近 70%。J3D28资讯网——每日最新资讯28at.com

这些 AI 工具的开发公司并未公开承认这些问题,却仍向用户收取每月 20 至 200 美元(备注:当前约 145 至 1449 元人民币)的订阅费。此外,付费版 Perplexity Pro(20 美元 / 月)和 Grok-3 Search(40 美元 / 月)比免费版回答得更多,但错误率也更高。J3D28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11482-0.html哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 中关村科金引领垂类大模型时代,得助平台与智能客服全新升级亮相

下一篇: 北京市中小学将打造首批 11 个 AI 应用场景

标签:
  • 热门焦点
  • 三院士三教授热聊元宇宙&——AIGC,学术界怎么看?

    来源:清元宇宙在近日举办的中国江宁2023元宇宙产业·人才高峰论坛暨AIGC发展大会上,中国工程院院士谭建荣、刘韵洁、郑纬民出席并发表了主旨演讲。除了三大院士,还有清华
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 上海虹口成立10亿元元宇宙基金,香港首只元宇宙ETF拟上市

    区块链日报17日讯 今日《元宇宙新鲜事》有:上海虹口将成立总额约10亿元的元宇宙产业基金;香港市场首只元宇宙主题ETF拟于2月21日上市;元宇宙平台Roblox出现违禁游
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 元宇宙画廊体验报告:有点头疼。

    2 月 10 日,Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗?时间好像变长了” 我问身后排队的人。我
  • NFTs正迎来数十亿美元的繁荣--NFT零工经济从业者开始暴赚

    当Stefan Prodanovic在13岁时开始尝试平面设计,与一位从事编程工作的学校朋友共同创作数字游戏时,他从未料到这个爱好会在他成年后变成一个相当有利可图的生意。
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与

相关资讯

    SQL Error: select * from ***_ecms_news11 where id in(,38,70,199,64,274) limit 6
Top