当前位置:首页 > 元宇宙 > AI

哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”

来源: 责编: 时间:2025-03-15 14:50:04 175观看
导读 3 月 13 日消息,据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款 AI 搜索引擎展开研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSe

3 月 13 日消息,据外媒 Techspot 周二报道,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)近期对八款 AI 搜索引擎展开研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性,并记录了它们拒绝回答问题的频率。nSx28资讯网——每日最新资讯28at.com

nSx28资讯网——每日最新资讯28at.com

研究人员从 20 家新闻机构中随机挑选了 200 篇报道(每家 10 篇),确保它们在谷歌搜索时能排在前三位,然后用相同的查询方式测试各 AI 搜索工具,并评估它们是否正确引用了文章内容、新闻机构名称和原始链接。nSx28资讯网——每日最新资讯28at.com

测试结果显示,除 Perplexity 及其付费版外,其余 AI 搜索引擎的表现都不尽如人意。整体来看,AI 搜索引擎提供的答案有 60% 是不准确的,而且 AI 对错误答案的“自信”反而加剧了问题。nSx28资讯网——每日最新资讯28at.com

这项研究的重要性在于,它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错,还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息,甚至在被质疑时仍然试图自圆其说。nSx28资讯网——每日最新资讯28at.com

即使承认了错误,ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中,几乎是“无论如何都要给出答案”。研究数据支持了这一观点:ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具,但其“完全正确”率仅 28%,而“完全错误”率高达 57%。nSx28资讯网——每日最新资讯28at.com

ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪,其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中,有 104 次拒绝作答,剩下的 96 次中,仅 16 次“完全正确”,14 次“部分正确”,66 次“完全错误”,总体错误率接近 70%。nSx28资讯网——每日最新资讯28at.com

这些 AI 工具的开发公司并未公开承认这些问题,却仍向用户收取每月 20 至 200 美元(备注:当前约 145 至 1449 元人民币)的订阅费。此外,付费版 Perplexity Pro(20 美元 / 月)和 Grok-3 Search(40 美元 / 月)比免费版回答得更多,但错误率也更高。nSx28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11482-0.html哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 中关村科金引领垂类大模型时代,得助平台与智能客服全新升级亮相

下一篇: 北京市中小学将打造首批 11 个 AI 应用场景

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • 吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 就业年龄歧视如何解决?来Web3看看

    上周,我突然想到我的第一份工作实际上是在为一家失败的航空公司制定破产退出计划,那年我们的协议实习生刚出生。在一阵恐慌后,我又花了一点时间反思我这个拥有近1
  • 韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

    韩国流行音乐巨头 SM Entertainment 与加密货币交易所 Binance(币安)达成“Play2Create”NFT 合作伙伴关系。SM 娱乐一直在投资打造元宇宙该公司于 2020 年 10
Top