当前位置:首页 > 元宇宙 > AI

OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局

来源: 责编: 时间:2025-01-21 12:16:25 155观看
导读 1 月 20 日消息,科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。简要介绍下 Epoch AI 组织,是主要由

1 月 20 日消息,科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。zq328资讯网——每日最新资讯28at.com

简要介绍下 Epoch AI 组织,是主要由 Open Philanthropy 资助的非营利组织。该组织推出了 FrontierMath 基准测试,通过整合专家级数学问题,衡量和测试 AI 模型的数学能力。zq328资讯网——每日最新资讯28at.com

OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基准测试中,以碾压式优势傲视其它模型,准确率高达 25%,而其他模型得分在 2% 左右。zq328资讯网——每日最新资讯28at.com

zq328资讯网——每日最新资讯28at.com

Epoch AI 的一位承包商“Meemi”在 LessWrong 论坛上发帖称,许多 FrontierMath 的贡献者直到公开宣布时才知道 OpenAI 参与了该基准搭建。zq328资讯网——每日最新资讯28at.com

Meemi 写道:“沟通完全不透明。我认为 Epoch AI 应该披露 OpenAI 的资助,承包商在选择是否参与基准测试工作时,应该获得关于其工作成果可能被用于能力提升的透明信息。”zq328资讯网——每日最新资讯28at.com

六位参与 FrontierMath 基准测试设计的数学家表示,他们并不知道 OpenAI 拥有独家访问权限。如果事先知道,他们可能不会参与。zq328资讯网——每日最新资讯28at.com

一些社交媒体用户担心,这种保密行为可能会损害 FrontierMath 作为客观基准的声誉。除了资助 FrontierMath 之外,OpenAI 还可以访问该基准测试中的许多问题和解决方案 ——Epoch AI 在 12 月 20 日 o3 发布之前并未透露这一事实。zq328资讯网——每日最新资讯28at.com

zq328资讯网——每日最新资讯28at.com

zq328资讯网——每日最新资讯28at.com

Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 在回复 Meemi 的帖子时坚称,FrontierMath 的完整性没有受到损害,但也承认 Epoch AI 在未能更加透明方面“犯了一个错误”。zq328资讯网——每日最新资讯28at.com

AI 专家 Gary Marcus 质疑 OpenAI 的声明,将此事件与 Theranos 丑闻相提并论。注:该丑闻是由伊丽莎白・霍尔姆斯创立的血液检测公司 Theranos 的欺诈事件,该公司声称其技术只需几滴血就能进行数百项检测,但最后谎言被揭穿,公司最终倒闭,霍尔姆斯也被判犯有欺诈罪。zq328资讯网——每日最新资讯28at.com

Besiroglu 承认 OpenAI 可以访问 FrontierMath 的大部分问题和答案,但有一个“OpenAI 未见过的保留数据集”用于验证模型的能力。zq328资讯网——每日最新资讯28at.com

Besiroglu 写道zq328资讯网——每日最新资讯28at.com

我们被限制在 o3 发布前后才能披露合作关系,事后看来,我们应该更努力地争取尽快对基准测试贡献者保持透明。我们的数学家应该知道谁可以访问他们的工作。即使我们在合同上受到限制,我们也应该让与贡献者的透明度成为我们与 OpenAI 协议中不可协商的一部分。zq328资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9485-0.htmlOpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 深夜突发!光刻机巨头传出大消息!

下一篇: 阿斯麦财报误发,半导体板块惊起一片涟漪?

标签:
  • 热门焦点
  • 清华、北大等86所高校布局元宇宙,是风口还是噱头?

    作者:徐赐豪来源:区块链日报据全国高校人工智能与大数据创新联盟元宇宙专委会不完全统计,截至2023年7月,全国共有86所高校战略布局元宇宙领域,其中本科院校73所,高职专科院校13所
  • FMIFAwards奖项即将揭晓!

    来源:X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 2022 区块链 50 强榜单;垃圾NFT项目的十三个特性

    本期关键字TerraZero在Decentraland完成元宇宙住房抵押贷款;腾讯发行齐白石画作数字藏品;Ripple成为数字欧元协会成员;Gem上线稀有度排名功能;2022 区块链 50 强榜
  • 上海虹口成立10亿元元宇宙基金,香港首只元宇宙ETF拟上市

    区块链日报17日讯 今日《元宇宙新鲜事》有:上海虹口将成立总额约10亿元的元宇宙产业基金;香港市场首只元宇宙主题ETF拟于2月21日上市;元宇宙平台Roblox出现违禁游
  • Web3 去中心化身份管理系统的历史、现状与展望

    身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构,这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
  • 元宇宙是数字共识生态的集成逻辑表达

    作者: 李鸣元宇宙是数字共识生态的集成逻辑表达,是以区块链技术为核心的可信数字化价值交互网络,是基于Web3.0技术体系和运作机制支撑下的数字新生态。本体论是
  • Kitten Coup社区反转Cool Kittens NFT骗局

    当狂热的加密爱好者将金钱投入到NFT图片时,浑水摸鱼的骗局随之而来,Cool Kittens NFT便是其中一个作恶者,该项目于去年11月在Sonala链上启动小猫形象的NFT铸造及
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
Top