当前位置:首页 > 元宇宙 > AI

Meta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

来源: 责编: 时间:2025-05-24 11:06:52 195观看
导读 5 月 22 日消息,科技媒体 marktechpost 昨日(5 月 21 日)发布博文,报道称 Meta 公司推出 J1 系列模型,通过强化学习和合成数据训练,显著提升判断模型准确性和公平性。项目背景大型语言模型(LLM)正在突破传统角色,逐步

5 月 22 日消息,科技媒体 marktechpost 昨日(5 月 21 日)发布博文,报道称 Meta 公司推出 J1 系列模型,通过强化学习和合成数据训练,显著提升判断模型准确性和公平性。69F28资讯网——每日最新资讯28at.com

项目背景69F28资讯网——每日最新资讯28at.com

大型语言模型(LLM)正在突破传统角色,逐步承担起评估与判断的重任。这种“LLM-as-a-Judge”的模式,让 AI 模型能够审查其他语言模型的输出,成为强化学习、基准测试和系统对齐的重要工具。69F28资讯网——每日最新资讯28at.com

不同于传统的奖励模型直接打分,判断模型通过内部链式推理(chain-of-thought reasoning)模拟人类思考,特别适合数学解题、伦理推理和用户意图解读等复杂任务,还能跨语言和领域验证回应,推动语言模型开发的自动化和扩展性。69F28资讯网——每日最新资讯28at.com

不过“LLM-as-a-Judge”模式目前面临的挑战是一致性差和推理深度不足,许多系统依赖基本指标或静态标注,无法有效评估主观或开放性问题;另一个问题就是位置偏见(position bias)答案顺序常影响最终判断,损害公平性。69F28资讯网——每日最新资讯28at.com

此外,大规模收集人工标注数据成本高昂且耗时,限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等现有解决方案依赖人工标注或僵化训练模式,适应性有限。69F28资讯网——每日最新资讯28at.com

J1 模型的创新突破69F28资讯网——每日最新资讯28at.com

为解决上述问题,Meta 的 GenAI 和 FAIR 团队研发了 J1 模型。J1 通过强化学习框架训练,采用可验证的奖励信号学习,使用 22000 个合成偏好对(包括 17000 个 WildChat 语料和 5000 个数学查询)构建数据集,训练出 J1-Llama-8B 和 J1-Llama-70B 两款模型。69F28资讯网——每日最新资讯28at.com

团队还引入 Group Relative Policy Optimization(GRPO)算法,简化训练过程,并通过位置无关学习(position-agnostic learning)和一致性奖励机制消除位置偏见。69F28资讯网——每日最新资讯28at.com

69F28资讯网——每日最新资讯28at.com

J1 支持多种判断格式,包括成对判断、评分和单项评分,展现出极高的灵活性和通用性。69F28资讯网——每日最新资讯28at.com

测试结果显示,J1 模型性能大幅领先。在 PPE 基准测试中,J1-Llama-70B 准确率达 69.6%,超越 DeepSeek-GRM-27B(67.2%)和 EvalPlanner-Llama-70B(65.6%);即便是较小的 J1-Llama-8B,也以 62.2% 的成绩击败 EvalPlanner-Llama-8B(55.5%)。69F28资讯网——每日最新资讯28at.com

69F28资讯网——每日最新资讯28at.com

69F28资讯网——每日最新资讯28at.com

J1 还在 RewardBench、JudgeBench 等多个基准测试中展现出顶级表现,证明其在可验证和主观任务上的强大泛化能力,表明推理质量而非数据量,是判断模型精准的关键。69F28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13122-0.htmlMeta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 谷歌创意利器 Canvas 升级 Gemini 2.5:降低开发门槛,AI 多样化呈现文本内容

下一篇: 热车秘籍:转速还是水温?掌握正确方法,爱车更长寿!

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 【东方证券】虚拟世界照进现实,元宇宙中有什么? | 元宇宙Meta洞见

    元宇宙的表现形式大多以游戏为起点,并逐渐整合互联网、数字化娱乐、社交网络等功能,长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
  • NFT的未来:传统企业与去中心化机构之间的竞赛

    传统企业和去中心化机构一直存在分歧,但最近NFT的爆炸式增长让他们产生了共同的兴趣,双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问,NFT 市场正在增长。
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 纽约街头出现NFT自动贩卖机

    一家初创公司宣布在纽约市开放一台NFT自动售货机,允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon,上个月完成了一轮300万美元的种子募捐
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • NFT高玩必备:NFT分析工具大盘点

    NFT市场的火热让越来越多的投资者投身其中,但当前的 NFT 生态系统存在几个问题却困扰了大多数人,如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
Top