当前位置:首页 > 元宇宙 > AI

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

来源: 责编: 时间:2024-04-03 09:03:33 292观看
导读 让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 A

让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?KPP28资讯网——每日最新资讯28at.com

GitHub 上一种你没有见过的船新 Benchmark 火了。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游戏引擎中确定的规则评判胜负。KPP28资讯网——每日最新资讯28at.com

这种新玩法吸引了不少网友来围观。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。KPP28资讯网——每日最新资讯28at.com

排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的 ELO 算法得出的排行榜如下:KPP28资讯网——每日最新资讯28at.com

最新版 gpt-3.5-turbo 成绩断崖式领先,Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。KPP28资讯网——每日最新资讯28at.com

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。KPP28资讯网——每日最新资讯28at.com

考验 AI 的动态决策力

AI 想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:KPP28资讯网——每日最新资讯28at.com

反应要快:格斗游戏讲究实时操作,犹豫就是败北KPP28资讯网——每日最新资讯28at.com

脑子要灵:高手应该预判对手几十步,未雨绸缪KPP28资讯网——每日最新资讯28at.com

思路要野:常规套路人人会,出奇制胜才是制胜法宝KPP28资讯网——每日最新资讯28at.com

适者生存:从失败中吸取教训并调整策略KPP28资讯网——每日最新资讯28at.com

久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

具体玩法如下:KPP28资讯网——每日最新资讯28at.com

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述。KPP28资讯网——每日最新资讯28at.com

所以对于 AI 来说,实际上他们在玩的是一种奇怪的文字冒险游戏。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

再把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击,可能的情况下使用特殊招式,以及通过跳跃来拉开距离。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差。KPP28资讯网——每日最新资讯28at.com

开发者对此解释到:KPP28资讯网——每日最新资讯28at.com

目标是评估大模型的实时决策能力,规则上允许 AI 提前生成 3-5 个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。KPP28资讯网——每日最新资讯28at.com

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

后续也有用户提交了流行开源模型的对战结果,在 7B 及以下量级的战斗中,还是 7B 模型排名更靠前。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。KPP28资讯网——每日最新资讯28at.com

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。KPP28资讯网——每日最新资讯28at.com

KPP28资讯网——每日最新资讯28at.com

正如开发者所说,想要赢,要在速度和精度之间做好权衡。KPP28资讯网——每日最新资讯28at.com

GitHub 项目:KPP28资讯网——每日最新资讯28at.com

https://github.com/OpenGenerativeAI/llm-colosseumKPP28资讯网——每日最新资讯28at.com

参考链接:KPP28资讯网——每日最新资讯28at.com

[1]https://x.com/nicolasoulianov/status/1772291483325878709KPP28资讯网——每日最新资讯28at.com

[2]https://x.com/justinlin610/status/1774117947235324087KPP28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨KPP28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3817-0.html大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI携Sora进军好莱坞,与电影巨头共商AI未来

下一篇: 消息称 OpenAI 将于本月在日本东京设立亚洲首个办事处

标签:
  • 热门焦点
  • 元宇宙的文旅赛道,还能如何发力?

    来源:X增强现实苹果推出Vision Pro,为XR行业注入一剂强心针。而在苹果开发者大会上迪士尼CEO鲍勃·艾格在宣布迪士尼与苹果达成合作,其Disney+流媒体服务将于Vision Pro
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 元宇宙带来沉浸式智能登录?你学会了吗?

    备受资本市场宠爱的元宇宙概念,正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态,与沉浸式体验紧密相关。 多重路径,打造无感知沉浸式智能登录《设计
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • 元宇宙的应用行业研究:娱乐可能是元宇宙落地最快的场景之一

    近日,毕马威正式发布其《初探元宇宙》报告,这也是毕马威在元宇宙领域发布的首份报告。报告指出,元宇宙在以下十个领域的应用场景尤其值得期待,包括娱乐、社交、零
Top