当前位置:首页 > 元宇宙 > AI

苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令

来源: 责编: 时间:2025-08-28 10:20:41 101观看
导读 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞 / 点踩评分,显著提升大语言模型(LLMs)执行复杂指令

8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞 / 点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。o9i28资讯网——每日最新资讯28at.com

注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞 / 点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0-100 分逐项评分,用以指导模型优化。o9i28资讯网——每日最新资讯28at.com

o9i28资讯网——每日最新资讯28at.com

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:o9i28资讯网——每日最新资讯28at.com

FollowBench 硬性满意率提升 4 个百分点o9i28资讯网——每日最新资讯28at.com

InFoBench 提高 6 点o9i28资讯网——每日最新资讯28at.com

Arena-Hard 胜率增加 3 点o9i28资讯网——每日最新资讯28at.com

某些任务最高提升达 8.2%。o9i28资讯网——每日最新资讯28at.com

这表明清单反馈在复杂、多步骤需求的执行中效果显著。o9i28资讯网——每日最新资讯28at.com

o9i28资讯网——每日最新资讯28at.com

o9i28资讯网——每日最新资讯28at.com

清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。o9i28资讯网——每日最新资讯28at.com

苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。o9i28资讯网——每日最新资讯28at.com

o9i28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27026-0.html苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI“看图”时的致命盲点,可窃取你的隐私数据

下一篇: 万台人形机器人新设计亮相:家庭轮式伙伴,售价亲民不到5万

标签:
  • 热门焦点
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 搭上“谷爱凌”,“柳夜熙们”站上风口?

    作者:张琳 曹杨从“永不塌房”的艺人到频频亮相北京冬奥会,作为元宇宙细分赛道之一的虚拟数字人又火了一把。2月7日,即谷爱凌摘得冬奥会自由式滑雪大跳台金牌的
  • 星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • “虚拟人”角斗场,基于“硬实力”下的人性平衡法则?

    在打工人“反内卷”的当下,一众虚拟人却“内卷”了起来。从北京春晚虚拟人苏小妹与刘宇演绎歌舞《星河入梦》,央美毕业的虚拟人夏语冰登上央视节目《对话》,湖南
  • 影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 2022年去中心化交易所会崛起吗?

    “在某个时候,去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
Top