当前位置:首页 > 元宇宙 > AI

OpenAI o1模型实测:PlanBench规划能力,准确率高达97.8%!

来源: 责编: 时间:2024-09-25 16:50:30 180观看
导读【ITBEAR】9月25日消息,近日,亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示,尽管o1模型在某些方面取得了显著的进步,但其仍然存在较大的局限性。PlanBench基准于2022

【ITBEAR】9月25日消息,近日,亚利桑那州立大学的科研团队利用PlanBench基准对OpenAI的o1模型进行了规划能力的测试。测试结果显示,尽管o1模型在某些方面取得了显著的进步,但其仍然存在较大的局限性。acy28资讯网——每日最新资讯28at.com

PlanBench基准于2022年开发,主要用于评估人工智能系统在规划方面的能力。该基准包含了600个来自Blocksworld领域的任务,要求积木必须按照特定的顺序进行堆叠。acy28资讯网——每日最新资讯28at.com

据ITBEAR了解,在Blocksworld任务中,OpenAI的o1模型展现出了惊人的表现,其准确率高达97.8%,远远超过了之前的最佳语言模型LLaMA 3.1 405B的62.6%。在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而o1模型的准确率仍能达到52.8%。acy28资讯网——每日最新资讯28at.com

为了验证o1模型的性能是否源于其训练集中的基准数据,研究人员还测试了一种新的随机变体。在这次测试中,o1模型的准确率降至37.3%,但仍远超其他得分接近零的模型。acy28资讯网——每日最新资讯28at.com

然而,随着任务的复杂性增加,o1模型的表现也急剧下降。在需要20到40个规划步骤的问题上,o1模型在较简单测试中的准确率从97.8%骤降至23.63%。此外,该模型在识别无法解决的任务方面也显得力不从心,只有27%的时间能够正确识别,而在54%的情况下,它错误地生成了完整但不可能完成的计划。acy28资讯网——每日最新资讯28at.com

尽管o1模型在基准性能上实现了显著的改进,但它并不能保证解决方案的正确性。与经典的规划算法相比,如快速向下算法,这些算法可以在更短的计算时间内实现完美的准确性。acy28资讯网——每日最新资讯28at.com

研究还指出,o1模型的高资源消耗是一个不容忽视的问题。运行这些测试需要花费近1900美元,而经典算法在标准计算机上运行则几乎不需要任何成本。acy28资讯网——每日最新资讯28at.com

研究人员强调,对人工智能系统进行公平比较时,必须综合考虑准确性、效率、成本和可靠性。他们的研究结果表明,尽管像o1这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力仍然有待提升。acy28资讯网——每日最新资讯28at.com

关键词:#OpenAI o1模型# #规划能力测试# #PlanBench基准# #局限性# #资源消耗#acy28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-7677-0.htmlOpenAI o1模型实测:PlanBench规划能力,准确率高达97.8%!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 明年4月,半价iPhone登场?搭载最新芯片引关注!

下一篇: 百度百舸AI计算平台4.0发布,模型训练效率逼近极限?

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 风口已至,多领域平台融入社交元素!

    在众多领域平台中,社交元素都扮演着重要角色,如直播营销带货、线上配对听歌、游戏局内互动等。随着元宇宙时代的来临,社交产品不断升级,社交元素推动流量变现,多平台领域融入社交
  • 25万虚拟er在“元宇宙”追星

    “默叽默叽,我是默默酱,我是在真元宇宙也有头有脸的人。”12月11日晚20:00,虚拟偶像@默默酱的首场个人元宇宙演唱会《以梦为马,抵达繁星》在大有空间APP
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • 从冰墩墩到无聊猿,解秘未来IP爆款的模因

    打造IP,是建设元宇宙的刚需。NFT能直接让IP的价值变现;虚拟人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一个个品牌IP星球,考验的是IP世界观的建设能力。如果说在
  • 元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 百度虚拟人——AI手语主播首次亮相冬奥会!

    除了火遍全国的冰墩墩,虚拟人也成为这届冬奥会的一大亮点元素。以体育明星谷爱凌为原型的数智人Meet Gu最先亮相。在2月5日谷爱凌首秀、2月7日谷爱凌首金的两天
Top