当前位置:首页 > 元宇宙 > AI

Meta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图

来源: 责编: 时间:2025-03-25 10:04:18 221观看
导读 3 月 24 日消息,科技媒体 marktechpost 昨日(3 月 23 日)发布博文,报道称 Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。这一创

3 月 24 日消息,科技媒体 marktechpost 昨日(3 月 23 日)发布博文,报道称 Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。iDj28资讯网——每日最新资讯28at.com

这一创新旨在提升大语言模型(LLMs)在多轮人机协作任务中的表现,特别是在后端编程和前端设计领域。SWEET-RL 通过逐轮优化决策,显著提高了模型的任务完成率,并展示了其在开源模型(如 Llama-3.1-8B)与专有模型(如 GPT-4o)竞争中的潜力。iDj28资讯网——每日最新资讯28at.com

项目背景

援引博文介绍,大语言模型正逐渐演变为能够执行复杂任务的自主智能体,但在多轮决策任务中仍面临挑战。iDj28资讯网——每日最新资讯28at.com

传统训练方法依赖于单轮反馈或模仿高概率行为,无法有效处理长期依赖和累积目标。这导致模型在协作场景中表现不佳,特别是在理解人类意图和多步骤推理方面。iDj28资讯网——每日最新资讯28at.com

SWEET-RL 的创新之处

SWEET-RL 采用非对称的“演员-评论家”结构,评论家在训练过程中可以访问额外信息(如正确答案),从而更精确地评估演员的决策。iDj28资讯网——每日最新资讯28at.com

iDj28资讯网——每日最新资讯28at.com

该框架直接建模逐轮的优势函数,简化了信用分配过程,并与 LLMs 的预训练架构更好地对齐。实验结果显示,SWEET-RL 在后端编程任务中通过率提升至 48.0%,前端设计任务的余弦相似度达到 76.9%,显著优于其他多轮强化学习方法。iDj28资讯网——每日最新资讯28at.com

iDj28资讯网——每日最新资讯28at.com

ColBench 基准测试

ColBench 包含超过 10000 个训练任务和 1000 个测试案例,模拟真实的人机协作场景。任务设计涵盖后端编程(如 Python 函数编写)和前端设计(如 HTML 代码生成),并限制每轮交互最多 10 次。iDj28资讯网——每日最新资讯28at.com

iDj28资讯网——每日最新资讯28at.com

这一基准测试通过单元测试通过率(代码)和余弦相似度(设计)评估模型表现,为多轮任务提供了可靠的评估标准。iDj28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11623-0.htmlMeta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AMD AI PC创新峰会盛况:苏姿丰携新品亮相,共绘AI生态新蓝图

下一篇: 谷歌正在推出 Gemini 实时人工智能视频功能

标签:
  • 热门焦点
  • 欧盟人工智能法案:四种AI系统风险类型的划分及监管措施

    作者:赵志东 蔡佳雯来源:区块链日报该法案采用风险分级的规制路径,将人工智能系统的风险划分成不可接受的风险、高风险、有限风险和轻微风险四种类型,并针对不同类型施加了不同
  • 元宇宙是投资中国的第五次重大机遇

    作者为凯思博投资董事长导语:投资逻辑要来自于人性在社会发展过程中的普遍规律,由第一性原理出发找出重大的投资机会来。1978年的改革开放到今天,中国总共经历了
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 王老吉启动元宇宙“吉空间”,HTC发布元宇宙应用VIVERSE

    今日《元宇宙新鲜事》有:王老吉启动元宇宙“吉空间”;HTC发布元宇宙应用VIVERSE;Meta将在马德里构建一个元宇宙创新中心;央视网《新闻+》推出系列视频《聊聊元宇宙
  • 融资千万美元的元宇宙平台UGC到底是什么?

    据获悉,全球化元宇宙社交平台BUD Technologies, Inc.(以下简称“BUD”)宣布完成1500万美元A+轮融资,本轮融资由启明创投领投,老股东源码资本、GGV纪源资本、云九资
  • MR——元宇宙平台的下一代入口

    作为“元宇宙”的领头羊,Meta的一举一动都受到业内的高度关注。华尔街见闻提及,2月17日周四,Facebook母公司Meta在透露,其混合现实技术(MR)将在几年后实现,让人们对元
Top