当前位置:首页 > 元宇宙 > AI

Meta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

来源: 责编: 时间:2025-05-24 11:06:52 182观看
导读 5 月 22 日消息,科技媒体 marktechpost 昨日(5 月 21 日)发布博文,报道称 Meta 公司推出 J1 系列模型,通过强化学习和合成数据训练,显著提升判断模型准确性和公平性。项目背景大型语言模型(LLM)正在突破传统角色,逐步

5 月 22 日消息,科技媒体 marktechpost 昨日(5 月 21 日)发布博文,报道称 Meta 公司推出 J1 系列模型,通过强化学习和合成数据训练,显著提升判断模型准确性和公平性。EDB28资讯网——每日最新资讯28at.com

项目背景EDB28资讯网——每日最新资讯28at.com

大型语言模型(LLM)正在突破传统角色,逐步承担起评估与判断的重任。这种“LLM-as-a-Judge”的模式,让 AI 模型能够审查其他语言模型的输出,成为强化学习、基准测试和系统对齐的重要工具。EDB28资讯网——每日最新资讯28at.com

不同于传统的奖励模型直接打分,判断模型通过内部链式推理(chain-of-thought reasoning)模拟人类思考,特别适合数学解题、伦理推理和用户意图解读等复杂任务,还能跨语言和领域验证回应,推动语言模型开发的自动化和扩展性。EDB28资讯网——每日最新资讯28at.com

不过“LLM-as-a-Judge”模式目前面临的挑战是一致性差和推理深度不足,许多系统依赖基本指标或静态标注,无法有效评估主观或开放性问题;另一个问题就是位置偏见(position bias)答案顺序常影响最终判断,损害公平性。EDB28资讯网——每日最新资讯28at.com

此外,大规模收集人工标注数据成本高昂且耗时,限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等现有解决方案依赖人工标注或僵化训练模式,适应性有限。EDB28资讯网——每日最新资讯28at.com

J1 模型的创新突破EDB28资讯网——每日最新资讯28at.com

为解决上述问题,Meta 的 GenAI 和 FAIR 团队研发了 J1 模型。J1 通过强化学习框架训练,采用可验证的奖励信号学习,使用 22000 个合成偏好对(包括 17000 个 WildChat 语料和 5000 个数学查询)构建数据集,训练出 J1-Llama-8B 和 J1-Llama-70B 两款模型。EDB28资讯网——每日最新资讯28at.com

团队还引入 Group Relative Policy Optimization(GRPO)算法,简化训练过程,并通过位置无关学习(position-agnostic learning)和一致性奖励机制消除位置偏见。EDB28资讯网——每日最新资讯28at.com

EDB28资讯网——每日最新资讯28at.com

J1 支持多种判断格式,包括成对判断、评分和单项评分,展现出极高的灵活性和通用性。EDB28资讯网——每日最新资讯28at.com

测试结果显示,J1 模型性能大幅领先。在 PPE 基准测试中,J1-Llama-70B 准确率达 69.6%,超越 DeepSeek-GRM-27B(67.2%)和 EvalPlanner-Llama-70B(65.6%);即便是较小的 J1-Llama-8B,也以 62.2% 的成绩击败 EvalPlanner-Llama-8B(55.5%)。EDB28资讯网——每日最新资讯28at.com

EDB28资讯网——每日最新资讯28at.com

EDB28资讯网——每日最新资讯28at.com

J1 还在 RewardBench、JudgeBench 等多个基准测试中展现出顶级表现,证明其在可验证和主观任务上的强大泛化能力,表明推理质量而非数据量,是判断模型精准的关键。EDB28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13122-0.htmlMeta 推出 J1 系列模型:革新 LLM-as-a-Judge,打造最强“AI 法官”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 谷歌创意利器 Canvas 升级 Gemini 2.5:降低开发门槛,AI 多样化呈现文本内容

下一篇: 热车秘籍:转速还是水温?掌握正确方法,爱车更长寿!

标签:
  • 热门焦点
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    扩展现实(XR)通过计算机将真实与虚拟相结合,打造了一个可人机交互的虚拟环境,将AR、VR、MR多种技术相融合,为体验者带来了虚拟世界与现实世界之间无缝转换的“沉浸
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • FTX 加密货币交易所开始向游戏公司提供加密服务

    据媒体报道,业内领先的加密货币交易所FTX宣布将涉足游戏领域。该公司表示,计划推出自己的游戏部门作为中介,专注于为传统游戏公司提供加密相关服务。此举将有助于
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
  • 我们离元宇宙的实现只差一副眼镜?

    近日的苹果春季新品发布会,想必许多人都守在了屏幕前,就为等待传说中的首款AR Glass。在发布会之前,苹果全球营销主管Greg Joswiak曾在Twitter上分享了一段短视频
Top