当前位置：首页 > 元宇宙 > AI

给大模型生图“去油”，腾讯混元新研究 SRPO 公布

来源：责编：时间：2025-09-19 17:57:21 128观看

导读 9 月 17 日消息，腾讯混元今晚通过官方公众号发文介绍，其生图团队在 9 月 10 日发布了新研究 SRPO，主要提供文生图模型的强化算法，解决开源文生图模型 Flux 的皮肤质感“过油”问题，让人像真实感“提升 3 倍”。根

9 月 17 日消息，腾讯混元今晚通过官方公众号发文介绍，其生图团队在 9 月 10 日发布了新研究 SRPO，主要提供文生图模型的强化算法，解决开源文生图模型 Flux 的皮肤质感“过油”问题，让人像真实感“提升 3 倍”。

根据介绍，该项目在发布后登上了 Hugging Face 热度榜榜首，社区量化版本下载量达 25K，Github Star 超过了 700。

当前，Flux 是开源文生图社区中最广泛使用的基础模型。针对 Flux.dev.1 模型生成的人物质感“过油”的问题，SRPO（全称为 Semantic Relative Preference Optimization，语义相对偏好优化）的解决手段包括在线调整奖励偏好、优化早期生成轨迹等。

官方揭秘了背后的技术：腾讯混元团队联合香港中文大学（深圳）和清华大学近日提出创新性解决方案：语义相对偏好优化（Semantic Relative Preference Optimization）。该方法创新性地提出了另一条解决思路 —— 通过语义偏好实现奖励模型的在线调整。具体来说，SRPO 通过为奖励模型添加特定的控制提示词（如“真实感”）来定向调整其优化目标。实验结果显示，这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。

进一步，研究人员发现，单纯的语义引导仍存在奖励破解（rewardhacking）的风险。针对这一问题，团队提出创新的“语义相对偏好优化”策略：同时使用正向词和负向词作为引导信号，通过负向梯度有效中和奖励模型的一般性偏差，同时保留语义差异中的特定偏好。

研究团队发现，传统方法（如 ReFL，DRaFT）通常仅优化生成轨迹的后半段，这种策略极易导致奖励模型在高频信息上的过拟合问题。具体表现为：HPSv2 奖励模型会偏好偏红色调的图像，PickScore 倾向于紫色图像，而 ImageReward 则容易对过曝区域给出较高评分。

基于这些发现，研究团队提出 Direct-Align 策略，对输入图像进行可控的噪声注入，随后通过单步推理，借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差，实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化，解决过拟合问题。

根据介绍，SRPO 具有极高的训练效率，只需 10 分钟训练即可全面超越 DanceGRPO 的效果。

▲ 与主流方法 DanceGRPO 对比无明显 hacking 现象，显著提升模型真实感

▲ 使用主流 reward 上未出现任何偏色、过饱和等奖励破解问题

SRPO 定量指标达 SOTA 水平，人类评估的真实度和美学优秀率提升超过 3 倍，训练时间相比 DanceGRPO 降低 75 倍。

附上有关链接如下：

论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

论文链接：https://arxiv.org/abs/2509.06942

项目主页：https://tencent.github.io/srpo-project-page/

GitHub：https://github.com/Tencent-Hunyuan/SRPO

本文链接：http://www.28at.com/showinfo-45-27702-0.html给大模型生图“去油”，腾讯混元新研究 SRPO 公布

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：强劲 AI 需求推动，今年四季度 NAND 与 DRAM 合约价预计大涨 15%-20%

下一篇：让 AI 真正“能做研究”，阿里通义 DeepResearch 模型、框架、方案全开源

标签：

热门焦点

雷克萨斯高管，“受贿”5000万？

来源：毒舌科技作者：潘磊雷克萨斯的高管，好像出事了。五六家日本小媒体，突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元（约合人民币5000
元宇宙里卖酸奶，好炸裂的操作！

作者 | 李东阳来源 | 首席营销官有没有发现，当下的热搜出现一个有意思的现象，那就是“情怀”不知不觉成为了主流，爷青回话题讨论性非常高。前有名侦探柯南和优衣库
中文在线的“元宇宙”故事，资本听腻了？

被誉为“元宇宙”龙头之一的中文在线，这下尴尬了。2022年1月11日，中国移动通信联合会元宇宙产业委员会揭牌，接纳涉足“元宇宙”的8家上市公司，包括中青宝、天下秀
Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

上周，外媒UploadVR在Quest 2开发者文档中发现了从未被公布过的“身体追踪支持”选项，暗示Meta VR头显或支持全身追踪。而在最近的Instagram问答环节中，Meta Reali
Web3 去中心化身份管理系统的历史、现状与展望

身份、数字资产和在线资料的映射最近在区块链行业获得了极大的关注。新技术正在形成架构，这将进一步为去中心化和以用户为中心的机制铺平道路。本文将讨论以下
从英式拍到荷兰拍，看传统金融拍卖玩法如何玩转NFT市场交易

作者：鲁拍卖是一种从古至今的商业活动。从古代的典当到现代的拍卖市场、我们熟知的拍卖行，以及知名街头艺术家Bansky名画拍卖成功后，竟自毁粉碎，现价值又翻倍的拍
传统互联网与区块链场景下数据权利法律分析

数据权益的复杂性在于数据涉及多环节多主体、内容不同质且与不同场景紧密联系、对软硬件技术环节紧密相关等方面的复杂性。在传统互联网与区块链模式下，数据处
以太坊面临来自Fantom的巨大挑战

众所周知，区块链和加密货币项目经常因其对环境的影响而受到批评。但是有一个非营利性的加密货币和区块链项目说它比其他的更环保。今天老雅痞就给大家聊一聊加
从概念到落地 Web3.0初具雏形

加密资产热潮催生出的链上应用中，除了DeFi、NFT、链游GameFi等场景外，还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年，由以太坊联合创始人及波卡创建者

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

给大模型生图“去油”，腾讯混元新研究 SRPO 公布

雷克萨斯高管，“受贿”5000万？

元宇宙里卖酸奶，好炸裂的操作！

中文在线的“元宇宙”故事，资本听腻了？

Meta证实Quest 2无法实现全身追踪，未来将为虚拟化身配备“假腿”

Web3 去中心化身份管理系统的历史、现状与展望

从英式拍到荷兰拍，看传统金融拍卖玩法如何玩转NFT市场交易

传统互联网与区块链场景下数据权利法律分析

以太坊面临来自Fantom的巨大挑战

从概念到落地 Web3.0初具雏形

最新推荐

元宇宙的文旅赛道，还能如何发力？

元宇宙带来沉浸式智能登录？你学会了吗？

索尼公布PSVR 2头显渲染图；社区开发者发布Quest版《我的世界》

从冰墩墩到无聊猿，解秘未来IP爆款的模因

从英式拍到荷兰拍，看传统金融拍卖玩法如何玩转NFT市场交易

元宇宙收割了谁

猜你喜欢

热门推荐

相关资讯