当前位置:首页 > 元宇宙 > AI

苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令

来源: 责编: 时间:2025-08-28 10:20:41 129观看
导读 8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞 / 点踩评分,显著提升大语言模型(LLMs)执行复杂指令

8 月 26 日消息,科技媒体 9to5Mac 昨日(8 月 25 日)发布博文,报道称苹果研究人员在最新论文中提出“基于清单反馈的强化学习”(RLCF)方法,用任务清单替代传统人类点赞 / 点踩评分,显著提升大语言模型(LLMs)执行复杂指令能力。Yle28资讯网——每日最新资讯28at.com

注:RLCF 的全称为 Reinforcement Learning from Checklist Feedback,不同于传统的“人类反馈强化学习”(RLHF)依赖人工点赞 / 点踩,RLCF 为每条用户指令生成具体的检查清单,并按 0-100 分逐项评分,用以指导模型优化。Yle28资讯网——每日最新资讯28at.com

Yle28资讯网——每日最新资讯28at.com

研究团队在强指令跟随模型 Qwen2.5-7B-Instruct 上测试该方法,涵盖五个常用评测基准。结果显示,RLCF 是唯一在全部测试中均取得提升的方案:Yle28资讯网——每日最新资讯28at.com

FollowBench 硬性满意率提升 4 个百分点Yle28资讯网——每日最新资讯28at.com

InFoBench 提高 6 点Yle28资讯网——每日最新资讯28at.com

Arena-Hard 胜率增加 3 点Yle28资讯网——每日最新资讯28at.com

某些任务最高提升达 8.2%。Yle28资讯网——每日最新资讯28at.com

这表明清单反馈在复杂、多步骤需求的执行中效果显著。Yle28资讯网——每日最新资讯28at.com

Yle28资讯网——每日最新资讯28at.com

Yle28资讯网——每日最新资讯28at.com

清单的生成过程也颇具特色。团队利用更大规模的 Qwen2.5-72B-Instruct 模型,结合既有研究方法,为 13 万条指令生成了“WildChecklists”数据集。清单内容为明确的二元判断项,例如“是否翻译成西班牙语?”。随后,大模型对候选回答逐项打分,综合加权后作为小模型的训练奖励信号。Yle28资讯网——每日最新资讯28at.com

苹果研究者也坦言该方法存在局限。首先,它依赖更强模型作为评判者,这在资源受限场景下未必可行。其次,RLCF 专注于提升复杂指令执行能力,并非设计用于安全对齐,因此不能替代安全性评估与调优。对于其他任务类型,该方法的适用性仍需进一步验证。Yle28资讯网——每日最新资讯28at.com

Yle28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27026-0.html苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AI“看图”时的致命盲点,可窃取你的隐私数据

下一篇: 万台人形机器人新设计亮相:家庭轮式伙伴,售价亲民不到5万

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 抢先推出“元宇宙”饮料,可口可乐赢麻了

    试图傍上元宇宙的品牌千千万,但像可口可乐玩得这么花的,属实不多。01 可口可乐盯上元宇宙1886年,可口可乐诞生于美国乔治亚州亚特兰大市,至今已拥有136年的悠久历
  • 中文在线的“元宇宙”故事,资本听腻了?

    被誉为“元宇宙”龙头之一的中文在线,这下尴尬了。2022年1月11日,中国移动通信联合会元宇宙产业委员会揭牌,接纳涉足“元宇宙”的8家上市公司,包括中青宝、天下秀
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
  • 音乐家如何利用NFTs来提高歌迷参与度

    "音乐是一种语言,不以特定的文字说话。它用情感说话,如果它在骨子里,它就在骨子里。" - Keith Richards音乐激励着我们,使我们流泪,使我们充满狂喜,并抚慰我们的灵魂
Top