当前位置:首页 > 元宇宙 > AI

给大模型生图“去油”,腾讯混元新研究 SRPO 公布

来源: 责编: 时间:2025-09-19 17:57:21 88观看
导读 9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。根

9 月 17 日消息,腾讯混元今晚通过官方公众号发文介绍,其生图团队在 9 月 10 日发布了新研究 SRPO,主要提供文生图模型的强化算法,解决开源文生图模型 Flux 的皮肤质感“过油”问题,让人像真实感“提升 3 倍”。yql28资讯网——每日最新资讯28at.com

根据介绍,该项目在发布后登上了 Hugging Face 热度榜榜首,社区量化版本下载量达 25K,Github Star 超过了 700。yql28资讯网——每日最新资讯28at.com

当前,Flux 是开源文生图社区中最广泛使用的基础模型。针对 Flux.dev.1 模型生成的人物质感“过油”的问题,SRPO(全称为 Semantic Relative Preference Optimization,语义相对偏好优化)的解决手段包括在线调整奖励偏好、优化早期生成轨迹等。yql28资讯网——每日最新资讯28at.com

yql28资讯网——每日最新资讯28at.com

yql28资讯网——每日最新资讯28at.com

官方揭秘了背后的技术:腾讯混元团队联合香港中文大学(深圳)和清华大学近日提出创新性解决方案:语义相对偏好优化(Semantic Relative Preference Optimization)。该方法创新性地提出了另一条解决思路 —— 通过语义偏好实现奖励模型的在线调整。具体来说,SRPO 通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。yql28资讯网——每日最新资讯28at.com

yql28资讯网——每日最新资讯28at.com

进一步,研究人员发现,单纯的语义引导仍存在奖励破解(rewardhacking)的风险。针对这一问题,团队提出创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。yql28资讯网——每日最新资讯28at.com

研究团队发现,传统方法(如 ReFL,DRaFT)通常仅优化生成轨迹的后半段,这种策略极易导致奖励模型在高频信息上的过拟合问题。具体表现为:HPSv2 奖励模型会偏好偏红色调的图像,PickScore 倾向于紫色图像,而 ImageReward 则容易对过曝区域给出较高评分。yql28资讯网——每日最新资讯28at.com

基于这些发现,研究团队提出 Direct-Align 策略,对输入图像进行可控的噪声注入,随后通过单步推理,借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化,解决过拟合问题。yql28资讯网——每日最新资讯28at.com

yql28资讯网——每日最新资讯28at.com

根据介绍,SRPO 具有极高的训练效率,只需 10 分钟训练即可全面超越 DanceGRPO 的效果。yql28资讯网——每日最新资讯28at.com

yql28资讯网——每日最新资讯28at.com

▲ 与主流方法 DanceGRPO 对比无明显 hacking 现象,显著提升模型真实感

yql28资讯网——每日最新资讯28at.com

▲ 使用主流 reward 上未出现任何偏色、过饱和等奖励破解问题

SRPO 定量指标达 SOTA 水平,人类评估的真实度和美学优秀率提升超过 3 倍,训练时间相比 DanceGRPO 降低 75 倍。yql28资讯网——每日最新资讯28at.com

yql28资讯网——每日最新资讯28at.com

yql28资讯网——每日最新资讯28at.com

附上有关链接如下:yql28资讯网——每日最新资讯28at.com

论文题目: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preferenceyql28资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/abs/2509.06942yql28资讯网——每日最新资讯28at.com

项目主页:https://tencent.github.io/srpo-project-page/yql28资讯网——每日最新资讯28at.com

GitHub:https://github.com/Tencent-Hunyuan/SRPOyql28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27702-0.html给大模型生图“去油”,腾讯混元新研究 SRPO 公布

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 强劲 AI 需求推动,今年四季度 NAND 与 DRAM 合约价预计大涨 15%-20%

下一篇: 让 AI 真正“能做研究”,阿里通义 DeepResearch 模型、框架、方案全开源

标签:
  • 热门焦点
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 字节跳动,刚刚投了一位虚拟女生

    今年第一笔虚拟人融资出炉了。投资界获悉,杭州李未可科技有限公司显示发生股东变更,新增字节跳动关联公司北京量子跃动科技有限公司。今天公司方面正式确认,本轮
  • 企业热、用户冷,元宇宙第一站将是“营销场”?

    如果说2021年底什么最火热,那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语,在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日,有消息传
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • 多地释放积极信号,元宇宙正成为地方争先竞逐的主战场?

    2月21日,2022中国·金鱼嘴元宇宙生态赋能大会在南京建邺区金鱼嘴基金街区举办,南京建邺区金鱼嘴基金街区宣布计划出资1亿元,支持元宇宙行业发展。同时,会上发布了
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • NFT 技术将传世之作带入博物馆

    意大利四大博物馆已与一个项目合作,该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了 科技公司Cincello的国际专
Top