当前位置:首页 > 元宇宙 > AI

Meta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图

来源: 责编: 时间:2025-03-25 10:04:18 213观看
导读 3 月 24 日消息,科技媒体 marktechpost 昨日(3 月 23 日)发布博文,报道称 Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。这一创

3 月 24 日消息,科技媒体 marktechpost 昨日(3 月 23 日)发布博文,报道称 Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。3u928资讯网——每日最新资讯28at.com

这一创新旨在提升大语言模型(LLMs)在多轮人机协作任务中的表现,特别是在后端编程和前端设计领域。SWEET-RL 通过逐轮优化决策,显著提高了模型的任务完成率,并展示了其在开源模型(如 Llama-3.1-8B)与专有模型(如 GPT-4o)竞争中的潜力。3u928资讯网——每日最新资讯28at.com

项目背景

援引博文介绍,大语言模型正逐渐演变为能够执行复杂任务的自主智能体,但在多轮决策任务中仍面临挑战。3u928资讯网——每日最新资讯28at.com

传统训练方法依赖于单轮反馈或模仿高概率行为,无法有效处理长期依赖和累积目标。这导致模型在协作场景中表现不佳,特别是在理解人类意图和多步骤推理方面。3u928资讯网——每日最新资讯28at.com

SWEET-RL 的创新之处

SWEET-RL 采用非对称的“演员-评论家”结构,评论家在训练过程中可以访问额外信息(如正确答案),从而更精确地评估演员的决策。3u928资讯网——每日最新资讯28at.com

3u928资讯网——每日最新资讯28at.com

该框架直接建模逐轮的优势函数,简化了信用分配过程,并与 LLMs 的预训练架构更好地对齐。实验结果显示,SWEET-RL 在后端编程任务中通过率提升至 48.0%,前端设计任务的余弦相似度达到 76.9%,显著优于其他多轮强化学习方法。3u928资讯网——每日最新资讯28at.com

3u928资讯网——每日最新资讯28at.com

ColBench 基准测试

ColBench 包含超过 10000 个训练任务和 1000 个测试案例,模拟真实的人机协作场景。任务设计涵盖后端编程(如 Python 函数编写)和前端设计(如 HTML 代码生成),并限制每轮交互最多 10 次。3u928资讯网——每日最新资讯28at.com

3u928资讯网——每日最新资讯28at.com

这一基准测试通过单元测试通过率(代码)和余弦相似度(设计)评估模型表现,为多轮任务提供了可靠的评估标准。3u928资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11623-0.htmlMeta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AMD AI PC创新峰会盛况:苏姿丰携新品亮相,共绘AI生态新蓝图

下一篇: 谷歌正在推出 Gemini 实时人工智能视频功能

标签:
  • 热门焦点
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 2022 区块链 50 强榜单;垃圾NFT项目的十三个特性

    本期关键字TerraZero在Decentraland完成元宇宙住房抵押贷款;腾讯发行齐白石画作数字藏品;Ripple成为数字欧元协会成员;Gem上线稀有度排名功能;2022 区块链 50 强榜
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗币杀手」成名的Shiba Inu(SHIB)在人们的印象中始终有着浓厚的Meme(模因恶搞)烙印,但它似乎一直在尝试突破这种局限。建立起一个庞大的粉丝社区后,Shiba Inu
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top