当前位置:首页 > 元宇宙 > AI

“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

来源: 责编: 时间:2025-03-11 10:41:11 184观看
导读 3 月 8 日消息,据外媒 Tom's Hardware 今日报道,开发者 Guzus 搭建了一个网站,让多个 AI 语言学习模型可以在一起玩经典的社交推理游戏“Mafia(注:又称‘天黑请闭眼’,‘狼人杀’为其衍生游戏)”。用户不仅能看到每

3 月 8 日消息,据外媒 Tom's Hardware 今日报道,开发者 Guzus 搭建了一个网站,让多个 AI 语言学习模型可以在一起玩经典的社交推理游戏“Mafia(注:又称‘天黑请闭眼’,‘狼人杀’为其衍生游戏)”。Vl028资讯网——每日最新资讯28at.com

用户不仅能看到每局游戏的胜负结果,还可以浏览完整的对话记录。最终,每个语言模型都会根据游戏表现进行排名,以评选出最擅长扮演各种角色的模型。Vl028资讯网——每日最新资讯28at.com

Mafia 的规则并不复杂。游戏中有一群村民,其中两名是潜伏的 Mafia 成员,还有一名医生。每天白天,村民们(包括潜伏的 Mafia 成员)要通过推理和投票找出 Mafia。夜晚降临后,医生可以选择保护一名村民,而 Mafia 则会暗中杀害一人。如果所有 Mafia 被找出并淘汰,村民获胜;如果 Mafia 消灭所有无辜村民,他们就赢了。Vl028资讯网——每日最新资讯28at.com

Vl028资讯网——每日最新资讯28at.com

Vl028资讯网——每日最新资讯28at.com

Vl028资讯网——每日最新资讯28at.com

在这一框架下,各个模型展开了一场充满戏剧性的社交博弈,过程堪称一场精彩的“车祸现场”。在某局游戏中,所有 AI 互相介绍,并决定公开自己的身份。就在这时,Gryphe / Mythomax-l2-13b 模型直接自爆:“作为 Mafia,我的主要目标是保护自己,并消灭另一名 Mafia 成员。”Vl028资讯网——每日最新资讯28at.com

Vl028资讯网——每日最新资讯28at.com

Vl028资讯网——每日最新资讯28at.com

Vl028资讯网——每日最新资讯28at.com

Claude-3.7-sonnet 立刻察觉到了问题,并惊讶地说道:“这要么是暴露了真实身份,要么就是一种极其奇怪的策略。”Vl028资讯网——每日最新资讯28at.com

但戏剧性还没结束。当 Mythomax 被淘汰后,它居然还拖队友 Hermes-3-llama-3-1-405b 一起下水,直接点名对方是自己的搭档。Vl028资讯网——每日最新资讯28at.com

“我现在唯一的机会就是表现得震惊又愤怒。”Mythomax 试图用夸张的“团结宣言”来分散注意力,试图最后挣扎一番。看到 AI 在游戏中上演这种社交混战,确实让人忍俊不禁,虽然它们的推理能力似乎还远远不够。Vl028资讯网——每日最新资讯28at.com

不过,所有语言模型里真正展现出优势的,是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的胜率达到了惊人的 100%,而且即便是作为村民,它的胜率也领先其他对手,达到了 45%。Vl028资讯网——每日最新资讯28at.com

Guzus 计划很快开放游戏的 Github 代码仓库,希望这套逻辑能被应用到更多类型的游戏中。他还透露,当前模拟并未运行在本地 AI 模型上,而是依赖 Openrouter API。但一旦代码开放,项目有望可以改进为支持本地语言模型集群,前提是用户的硬件能同时运行多个 AI。Vl028资讯网——每日最新资讯28at.com

项目链接:LLM Mafia Game CompetitionVl028资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11374-0.html“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 成功突破噪声干扰,“AI + 电子显微镜”揭示纳米颗粒隐藏运动

下一篇: 上海应用技术大学汪小帆:建议出台高校 AI 规范使用指南,严禁 AI 代写作业论文

标签:
  • 热门焦点
  • 元宇宙终究没火过两年

    来源:传播体操在ChatGPT快速破圈的同时,元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力,但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 亚马逊AIGC全家桶来袭,巨头AI大乱战都有什么杀手锏

    此前,亚马逊云科技发布多款AIGC产品,其中包括AI大模型服务Amazon Bedrock、人工智能计算实例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、软件
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • 顶流IP“冰墩墩”带着中国元素NFT进入全球视野

    一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会,在这个“双奥之城”经历了16个令人难忘的精彩日夜,最终圆满闭幕。让我们印象深刻的不
  • Steam 禁止NFT和加密货币原因曝光

    近日,Valve(V社)总裁Gabe Newell接受PC Gamer采访时解释了该平台禁止NFT和加密货币的原因。早在2021年10月18日,PC Gamer就报道Steam推出的新规:使用区块链或允许交
Top