当前位置:首页 > 元宇宙 > AI

Meta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图

来源: 责编: 时间:2025-03-25 10:04:18 157观看
导读 3 月 24 日消息,科技媒体 marktechpost 昨日(3 月 23 日)发布博文,报道称 Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。这一创

3 月 24 日消息,科技媒体 marktechpost 昨日(3 月 23 日)发布博文,报道称 Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。tSr28资讯网——每日最新资讯28at.com

这一创新旨在提升大语言模型(LLMs)在多轮人机协作任务中的表现,特别是在后端编程和前端设计领域。SWEET-RL 通过逐轮优化决策,显著提高了模型的任务完成率,并展示了其在开源模型(如 Llama-3.1-8B)与专有模型(如 GPT-4o)竞争中的潜力。tSr28资讯网——每日最新资讯28at.com

项目背景

援引博文介绍,大语言模型正逐渐演变为能够执行复杂任务的自主智能体,但在多轮决策任务中仍面临挑战。tSr28资讯网——每日最新资讯28at.com

传统训练方法依赖于单轮反馈或模仿高概率行为,无法有效处理长期依赖和累积目标。这导致模型在协作场景中表现不佳,特别是在理解人类意图和多步骤推理方面。tSr28资讯网——每日最新资讯28at.com

SWEET-RL 的创新之处

SWEET-RL 采用非对称的“演员-评论家”结构,评论家在训练过程中可以访问额外信息(如正确答案),从而更精确地评估演员的决策。tSr28资讯网——每日最新资讯28at.com

tSr28资讯网——每日最新资讯28at.com

该框架直接建模逐轮的优势函数,简化了信用分配过程,并与 LLMs 的预训练架构更好地对齐。实验结果显示,SWEET-RL 在后端编程任务中通过率提升至 48.0%,前端设计任务的余弦相似度达到 76.9%,显著优于其他多轮强化学习方法。tSr28资讯网——每日最新资讯28at.com

tSr28资讯网——每日最新资讯28at.com

ColBench 基准测试

ColBench 包含超过 10000 个训练任务和 1000 个测试案例,模拟真实的人机协作场景。任务设计涵盖后端编程(如 Python 函数编写)和前端设计(如 HTML 代码生成),并限制每轮交互最多 10 次。tSr28资讯网——每日最新资讯28at.com

tSr28资讯网——每日最新资讯28at.com

这一基准测试通过单元测试通过率(代码)和余弦相似度(设计)评估模型表现,为多轮任务提供了可靠的评估标准。tSr28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11623-0.htmlMeta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AMD AI PC创新峰会盛况:苏姿丰携新品亮相,共绘AI生态新蓝图

下一篇: 谷歌正在推出 Gemini 实时人工智能视频功能

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 内容行业大变天,爆款全靠AI?

    出品 | 微果酱(wjam123456)作者 | 陈出木题图 | 文心一格 AI的发展之快出乎所有人的预料,似乎一夜之间便呼啸而来。无论是资本的风向标,抑或是生活工作的辅助、流量口,还是茶余饭
  • 蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?

    日前,天下秀数字科技集团正式公布了2022年报及2023年一季报。报告显示,2022年天下秀实现营收41.29亿元,同比下滑8.48%;归母净利润1.8亿元,同比下滑49.2%,几乎出现了盈利腰斩的态势
  • 上、中、下游加深融合,搭建元宇宙产业全景

    元宇宙产业链涉及多种技术和多个领域。在上游,聚集着大量的技术厂商,提供元宇宙相关的硬件和软件支持;在中游,内容运营与分发领域也吸引着越来越多的企业以VR内容
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 城市数字孪生标准化白皮书(2022版)

    当前,城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯,实
  • Meta展示AI系统Builder Bot;《Pistol Whip》增加派对模式

    今日热点:Meta展示AI系统Builder Bot;招聘信息显示Meta正在探索具有蜂窝连接功能的VR/AR头显;英国VR工作室Coatsink Games正在为PSVR 2开发新游戏;VR节奏射击游戏
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top