当前位置:首页 > 元宇宙 > AI

大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

来源: 责编: 时间:2024-04-03 09:03:33 330观看
导读 让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 A

让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?hwr28资讯网——每日最新资讯28at.com

GitHub 上一种你没有见过的船新 Benchmark 火了。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游戏引擎中确定的规则评判胜负。hwr28资讯网——每日最新资讯28at.com

这种新玩法吸引了不少网友来围观。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。hwr28资讯网——每日最新资讯28at.com

排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的 ELO 算法得出的排行榜如下:hwr28资讯网——每日最新资讯28at.com

最新版 gpt-3.5-turbo 成绩断崖式领先,Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。hwr28资讯网——每日最新资讯28at.com

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。hwr28资讯网——每日最新资讯28at.com

考验 AI 的动态决策力

AI 想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:hwr28资讯网——每日最新资讯28at.com

反应要快:格斗游戏讲究实时操作,犹豫就是败北hwr28资讯网——每日最新资讯28at.com

脑子要灵:高手应该预判对手几十步,未雨绸缪hwr28资讯网——每日最新资讯28at.com

思路要野:常规套路人人会,出奇制胜才是制胜法宝hwr28资讯网——每日最新资讯28at.com

适者生存:从失败中吸取教训并调整策略hwr28资讯网——每日最新资讯28at.com

久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

具体玩法如下:hwr28资讯网——每日最新资讯28at.com

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述。hwr28资讯网——每日最新资讯28at.com

所以对于 AI 来说,实际上他们在玩的是一种奇怪的文字冒险游戏。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

再把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击,可能的情况下使用特殊招式,以及通过跳跃来拉开距离。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差。hwr28资讯网——每日最新资讯28at.com

开发者对此解释到:hwr28资讯网——每日最新资讯28at.com

目标是评估大模型的实时决策能力,规则上允许 AI 提前生成 3-5 个动作,更大的模型能提前生成更多的动作,但也需要更长的时间。hwr28资讯网——每日最新资讯28at.com

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

后续也有用户提交了流行开源模型的对战结果,在 7B 及以下量级的战斗中,还是 7B 模型排名更靠前。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。hwr28资讯网——每日最新资讯28at.com

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。hwr28资讯网——每日最新资讯28at.com

hwr28资讯网——每日最新资讯28at.com

正如开发者所说,想要赢,要在速度和精度之间做好权衡。hwr28资讯网——每日最新资讯28at.com

GitHub 项目:hwr28资讯网——每日最新资讯28at.com

https://github.com/OpenGenerativeAI/llm-colosseumhwr28资讯网——每日最新资讯28at.com

参考链接:hwr28资讯网——每日最新资讯28at.com

[1]https://x.com/nicolasoulianov/status/1772291483325878709hwr28资讯网——每日最新资讯28at.com

[2]https://x.com/justinlin610/status/1774117947235324087hwr28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨hwr28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3817-0.html大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI携Sora进军好莱坞,与电影巨头共商AI未来

下一篇: 消息称 OpenAI 将于本月在日本东京设立亚洲首个办事处

标签:
  • 热门焦点
  • 数字人的新革命,BAT的“冲高”战场

    来源:刘旷ChatGPT横空出世,让人们看到了数字人的另一种可能,将ChatGPT与虚拟数字人融合,研发出更加智能化、拟人化的虚拟数字人成为数字人厂商的新命题、新方向。2月份,岭南股份
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • “任何国产元宇宙都是假元宇宙”

    上个月,华语乐坛的优质偶像之一,DOTA2资深玩家林俊杰,在国外元宇宙产品分布式大陆(Decentraland)上买了三块虚拟地产,花了12.3万美元(也就是人民币接近80万)。截至目
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • 索尼公布PSVR 2头显渲染图;社区开发者发布Quest版《我的世界》

    近日热点:索尼正式公布PSVR 2头显及控制器官方渲染图;入局元宇宙,鸿海科技与XRSPACE签订合作备忘录;研究人员表示面部追踪可增强VR操控体验;社区开发者QuestCraft发
  • 与元宇宙美少女艺术家的对话

    我最近宣布了我自己的NFT项目,这是我已经工作了几个月的事情。由于我之前只是一个收藏家,拥有自己的项目真的给了我一个新的视角来看待这个领域。我一直欢迎人们
  • NFT艺术家Hayley Rincon 专访:我的迷幻数字艺术之路

    Hayley Rincon是一位令人印象深刻才华横溢的创作者,她的作品呈现出迷幻的气息。今天就来聊聊她的艺术作品,和她自己的数字艺术之路。Hayley是加利福尼亚湾区的有
  • 参加元宇宙里的招聘会是什么样一种体验?

    求职者可以在活动中走动,就像他们在现实生活中一样。长话短说看亮点:招聘公司Hirect为Y-combinator支持的初创公司举办了一场元宇宙招聘会。这里有一个大厅、一
Top