当前位置:首页 > 元宇宙 > AI

OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来源: 责编: 时间:2024-09-27 16:34:57 153观看
导读 9 月 25 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2

9 月 25 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。f7y28资讯网——每日最新资讯28at.com

PlanBench 基准简介

PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。f7y28资讯网——每日最新资讯28at.com

OpenAI o1 模型成绩

在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。f7y28资讯网——每日最新资讯28at.com

在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而 OpenAI 的 o1 模型准确率达到 52.8%。附上报告图片如下:f7y28资讯网——每日最新资讯28at.com

f7y28资讯网——每日最新资讯28at.com

研究人员还测试了一种新的随机变体,以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中,O1 的准确率降至 37.3%,但仍远远超过了得分接近零的其它模型。f7y28资讯网——每日最新资讯28at.com

规划步骤越多,性能下降越明显

随着任务越来越复杂,o1 的表现也急剧下降。在需要 20 到 40 个规划步骤的问题上,o1 在较简单测试中的准确率从 97.8% 下降到只有 23.63%。f7y28资讯网——每日最新资讯28at.com

该模型在识别无法解决的任务方面也很吃力,只有 27% 的时间能够正确识别。在 54% 的情况下,它错误地生成了完整但不可能完成的计划。f7y28资讯网——每日最新资讯28at.com

“Quantum improvement”,但并非突破性

虽然 o1 在基准性能上实现了“量子改进”(Quantum improvement),但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法,可以在更短的计算时间内实现完美的准确性。f7y28资讯网——每日最新资讯28at.com

研究还强调了 o1 的高资源消耗,运行这些测试需要花费近 1900 美元,而经典算法在标准计算机上运行几乎不需要任何成本。f7y28资讯网——每日最新资讯28at.com

研究人员强调,对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明,虽然像 o1 这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力还不够强大。f7y28资讯网——每日最新资讯28at.com

f7y28资讯网——每日最新资讯28at.com

由媒体TheDecoder 使用 Midjourney 生成

本文链接:http://www.28at.com/showinfo-45-7799-0.htmlOpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软发布新工具,检测和纠正 AI 幻觉内容

下一篇: 世嘉/ATLUS重磅来袭!东京电玩展直播,游戏迷们别错过!

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 这一超级富豪“逆袭”,身价大增4330亿

    来源:侃见财经互联网的突围没有“终点”。在快节奏的商业环境下,不断的试错成了互联网企业的标配,一年一个风口,一个风口造就一个热点,但是回头来看,最终受益的还是身处
  • 有人狂赚千倍,资金盘游戏日进上亿,元宇宙泡沫还能吹多久?

    你还不知道元宇宙?没关系。看看微软、Meta、英伟达的雄心壮志,便可领略元宇宙的辽阔。1月18日,微软宣布将以687亿美元收购动视暴雪,这是有史以来互联网领域最大的
  • 传腾讯已推出全新XR业务;摩托罗拉正打造5GXR颈戴式计算组件

    今日热点:传腾讯已推出全新XR业务;摩托罗拉与Verizon合作打造5G XR颈戴式计算组件;小米AR购物导航专利获授权;VR一体机Simula One放弃众筹并开放直接预订;VR游戏《
  • 元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 从英式拍到荷兰拍,看传统金融拍卖玩法如何玩转NFT市场交易

    作者:鲁拍卖是一种从古至今的商业活动。从古代的典当到现代的拍卖市场、我们熟知的拍卖行,以及知名街头艺术家Bansky名画拍卖成功后,竟自毁粉碎,现价值又翻倍的拍
  • NFT 技术将传世之作带入博物馆

    意大利四大博物馆已与一个项目合作,该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了 科技公司Cincello的国际专
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
Top