当前位置：首页 > 元宇宙 > AI

Meta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最强“AI 法官”

来源：责编：时间：2025-05-24 11:06:52 196观看

导读 5 月 22 日消息，科技媒体 marktechpost 昨日（5 月 21 日）发布博文，报道称 Meta 公司推出 J1 系列模型，通过强化学习和合成数据训练，显著提升判断模型准确性和公平性。项目背景大型语言模型（LLM）正在突破传统角色，逐步

5 月 22 日消息，科技媒体 marktechpost 昨日（5 月 21 日）发布博文，报道称 Meta 公司推出 J1 系列模型，通过强化学习和合成数据训练，显著提升判断模型准确性和公平性。

项目背景

大型语言模型（LLM）正在突破传统角色，逐步承担起评估与判断的重任。这种“LLM-as-a-Judge”的模式，让 AI 模型能够审查其他语言模型的输出，成为强化学习、基准测试和系统对齐的重要工具。

不同于传统的奖励模型直接打分，判断模型通过内部链式推理（chain-of-thought reasoning）模拟人类思考，特别适合数学解题、伦理推理和用户意图解读等复杂任务，还能跨语言和领域验证回应，推动语言模型开发的自动化和扩展性。

不过“LLM-as-a-Judge”模式目前面临的挑战是一致性差和推理深度不足，许多系统依赖基本指标或静态标注，无法有效评估主观或开放性问题；另一个问题就是位置偏见（position bias）答案顺序常影响最终判断，损害公平性。

此外，大规模收集人工标注数据成本高昂且耗时，限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等现有解决方案依赖人工标注或僵化训练模式，适应性有限。

J1 模型的创新突破

为解决上述问题，Meta 的 GenAI 和 FAIR 团队研发了 J1 模型。J1 通过强化学习框架训练，采用可验证的奖励信号学习，使用 22000 个合成偏好对（包括 17000 个 WildChat 语料和 5000 个数学查询）构建数据集，训练出 J1-Llama-8B 和 J1-Llama-70B 两款模型。

团队还引入 Group Relative Policy Optimization（GRPO）算法，简化训练过程，并通过位置无关学习（position-agnostic learning）和一致性奖励机制消除位置偏见。

J1 支持多种判断格式，包括成对判断、评分和单项评分，展现出极高的灵活性和通用性。

测试结果显示，J1 模型性能大幅领先。在 PPE 基准测试中，J1-Llama-70B 准确率达 69.6%，超越 DeepSeek-GRM-27B（67.2%）和 EvalPlanner-Llama-70B（65.6%）；即便是较小的 J1-Llama-8B，也以 62.2% 的成绩击败 EvalPlanner-Llama-8B（55.5%）。

J1 还在 RewardBench、JudgeBench 等多个基准测试中展现出顶级表现，证明其在可验证和主观任务上的强大泛化能力，表明推理质量而非数据量，是判断模型精准的关键。

本文链接：http://www.28at.com/showinfo-45-13122-0.htmlMeta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最强“AI 法官”

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：谷歌创意利器 Canvas 升级 Gemini 2.5：降低开发门槛，AI 多样化呈现文本内容

下一篇：热车秘籍：转速还是水温？掌握正确方法，爱车更长寿！

标签：

热门焦点

《从营销AIGC化到AIGC营销化》报告发布

来源：清元宇宙7月2日上午，清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中，清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
数字虚拟人23年最新变化！

作者：小资来源：米塔之家自2021年元宇宙“爆炸”后，作为现实世界连接元宇宙的媒介之一，大批虚拟人跑步入场。到了2022年底，据天眼查数据显示，我国目前企业名称或经营范围
AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦阳策划 | 杨晓鹤封面来源 | 图虫创意 2016年，李彦宏站在百度联盟峰会的讲台上，向所有人宣布：互联网的下一幕是人工智能。同年，Google 旗下 Dee
米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

今日热点：苹果AR/VR头显的FaceTime或基于Memojis和SharePlay构建而成；VR/AR老牌企业当红齐天完成B轮+融资；米哈游推出元宇宙品牌HoYoverse；国产VR射击游戏《Contra
Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

在女性遭受性骚扰甚至被攻击的事件相继被报道之后，仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
“虚拟人”角斗场，基于“硬实力”下的人性平衡法则？

在打工人“反内卷”的当下，一众虚拟人却“内卷”了起来。从北京春晚虚拟人苏小妹与刘宇演绎歌舞《星河入梦》，央美毕业的虚拟人夏语冰登上央视节目《对话》，湖南
用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

你可能听说过不可伪造的代币，或NFTs。NFTs是数字代币，代表完全独特的项目的所有权；存储在区块链中并可追踪，它们不能被修改、替换或复制。作为NFT铸造的资产在数字
赵长鹏预测SoicalFi为今年主要驱动力，新的机会在哪里？

作者：五火球教主前不久，赵长鹏在《财富》杂志印度版块刊登评论。他表示：“DeFi 在 2021 年出现了快速创新，我们可能会在 2022 年看到蓬勃发展的兴趣和创新，其中 Soc
从概念到落地 Web3.0初具雏形

加密资产热潮催生出的链上应用中，除了DeFi、NFT、链游GameFi等场景外，还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年，由以太坊联合创始人及波卡创建者

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

Meta 推出 J1 系列模型：革新 LLM-as-a-Judge，打造最强“AI 法官”

《从营销AIGC化到AIGC营销化》报告发布

数字虚拟人23年最新变化！

AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

米哈游推出元宇宙品牌；VR/AR老牌企业当红齐天完成B轮+融资

Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

“虚拟人”角斗场，基于“硬实力”下的人性平衡法则？

用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

赵长鹏预测SoicalFi为今年主要驱动力，新的机会在哪里？

从概念到落地 Web3.0初具雏形

最新推荐

茅台的元宇宙App火了，也被骂惨了

元宇宙将会如何塑造未来的工作方式？

摩根大通：元宇宙市场预计每年收入超1万亿美元

NFT自动售货机来啦！

用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

售出6930万美元的NFT已经过去一年，NFT如今是否已成为主流？

猜你喜欢

热门推荐

相关资讯