当前位置:首页 > 元宇宙 > AI

给大模型生图“去油”,腾讯混元新研究 SRPO 公布

来源: 责编: 时间:2025-09-19 17:57:21 60观看
导读 9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。根

9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。2Qf28资讯网——每日最新资讯28at.com

根据介绍,该项目在发布后登上了 Hugging Face 热度榜榜首,社区量化版本下载量达 25K,Github Star 超过了 700。2Qf28资讯网——每日最新资讯28at.com

当前,Flux 是开源文生图社区中最广泛使用的基础模型。针对 Flux.dev.1 模型生成的人物质感“过油”的问题,SRPO(全称为 Semantic Relative Preference Optimization,语义相对偏好优化)的解决手段包括在线调整奖励偏好、优化早期生成轨迹等。2Qf28资讯网——每日最新资讯28at.com

2Qf28资讯网——每日最新资讯28at.com

2Qf28资讯网——每日最新资讯28at.com

官方揭秘了背后的技术:腾讯混元团队联合香港中文大学(深圳)和清华大学近日提出创新性解决方案:语义相对偏好优化(Semantic Relative Preference Optimization)。该方法创新性地提出了另一条解决思路 —— 通过语义偏好实现奖励模型的在线调整。具体来说,SRPO 通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。2Qf28资讯网——每日最新资讯28at.com

2Qf28资讯网——每日最新资讯28at.com

进一步,研究人员发现,单纯的语义引导仍存在奖励破解(rewardhacking)的风险。针对这一问题,团队提出创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。2Qf28资讯网——每日最新资讯28at.com

研究团队发现,传统方法(如 ReFL,DRaFT)通常仅优化生成轨迹的后半段,这种策略极易导致奖励模型在高频信息上的过拟合问题。具体表现为:HPSv2 奖励模型会偏好偏红色调的图像,PickScore 倾向于紫色图像,而 ImageReward 则容易对过曝区域给出较高评分。2Qf28资讯网——每日最新资讯28at.com

基于这些发现,研究团队提出 Direct-Align 策略,对输入图像进行可控的噪声注入,随后通过单步推理,借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化,解决过拟合问题。2Qf28资讯网——每日最新资讯28at.com

2Qf28资讯网——每日最新资讯28at.com

根据介绍,SRPO 具有极高的训练效率,只需 10 分钟训练即可全面超越 DanceGRPO 的效果。2Qf28资讯网——每日最新资讯28at.com

2Qf28资讯网——每日最新资讯28at.com

▲ 与主流方法 DanceGRPO 对比无明显 hacking 现象,显著提升模型真实感

2Qf28资讯网——每日最新资讯28at.com

▲ 使用主流 reward 上未出现任何偏色、过饱和等奖励破解问题

SRPO 定量指标达 SOTA 水平,人类评估的真实度和美学优秀率提升超过 3 倍,训练时间相比 DanceGRPO 降低 75 倍。2Qf28资讯网——每日最新资讯28at.com

2Qf28资讯网——每日最新资讯28at.com

2Qf28资讯网——每日最新资讯28at.com

附上有关链接如下:2Qf28资讯网——每日最新资讯28at.com

论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference2Qf28资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/abs/2509.069422Qf28资讯网——每日最新资讯28at.com

项目主页:https://tencent.github.io/srpo-project-page/2Qf28资讯网——每日最新资讯28at.com

GitHub:https://github.com/Tencent-Hunyuan/SRPO2Qf28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27702-0.html给大模型生图“去油”,腾讯混元新研究 SRPO 公布

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 强劲 AI 需求推动,今年四季度 NAND 与 DRAM 合约价预计大涨 15%-20%

下一篇: 让 AI 真正“能做研究”,阿里通义 DeepResearch 模型、框架、方案全开源

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 花房集团上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集团在港交所成功上市,首日便受到追捧,当日最高涨幅达28.75%。继360、360数科、鲁大师后,这是“红衣教主”周
  • 中国虚拟数字人如何横向拓展市场需求,探索发展场景?

    通过5G、AI等新技术更新换代,虚拟数字人为诸多下游行业带来新的发展机会。虚拟数字人技术以其简化性和精品性持续拓展泛娱乐、金融、教育、政务、医疗、零售等
  • “元宇宙”里过大年,《迷你世界》在做一场怎样的实验?

    2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限,腾讯等大厂更加密集地投资动作,让游戏创投市场异常火热,"元宇宙"概念的大放异彩,更是吸引了Netfl
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • Layer1的新以太坊,更好的以太坊?

    以太坊作为区块链基础设施地位看起来已不可动摇,但也面临着费用高、效率低、偏离去中心化初衷等问题。平台上既得利益群体的形成和固化也逐渐让革新变得困难。
  • 元宇宙时代NFT的价值衡量

    有人认为NFT的高昂价格只是炒作的产物,并不具有其对等的价值,但其实NFT并不是空中楼阁,只是区块链数字分类账中的一种形式。诚然,目前的NFT仍处于灰色地带,相关的法
  • 元宇宙画廊体验报告:有点头疼。

    2 月 10 日,Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗?时间好像变长了” 我问身后排队的人。我
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
Top