当前位置：首页 > 元宇宙 > AI

字节跳动豆包文生图技术报告发布：数据处理、预训练、RLHF 全流程公开

来源：责编：时间：2025-03-14 12:40:41 203观看

导读 3 月 12 日消息，今天，豆包大模型团队正式发布文生图技术报告，首次公开 Seedream 2.0 图像生成模型技术细节，覆盖数据构建、预训练框架、后训练 RLHF 全流程，针对Seedream 2.0 原生中英双语理解、文字渲染、高美感

3 月 12 日消息，今天，豆包大模型团队正式发布文生图技术报告，首次公开 Seedream 2.0 图像生成模型技术细节，覆盖数据构建、预训练框架、后训练 RLHF 全流程，针对Seedream 2.0 原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现，进行了具体介绍。

据介绍，豆包大模型团队文生图模型 Seedream 2.0于 2024 年 12 月初在豆包 App 和即梦上线，已服务上亿 C 端用户。

相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型，该模型更好解决了文本渲染能力欠佳、对中国文化理解不足等诸多实际问题，支持原生中英双语，美感、指令遵循等能力有整体提升。

团队为了较全面客观地评估模型，围绕图文匹配度、结构准确率、美感等基础维度，严格构建了 Bench-240 评测基准。通过测试，团队发现 Seedream 2.0面向英文提示词，其生成内容的结构合理性、文本理解准确性高于主流模型。

中文综合能力同样突出，其生成与渲染文字可用率达 78%，完美响应率为 63%，高于业界目前其他模型。

以下将从数据预处理、预训练、后训练维度介绍模型技术细节：

1. 深度融合知识的数据预处理框架

生成式 AI 技术，正从规模至上的“暴力美学”，向满足特定要求的“精准智能”转变，与之同步，数据预处理也演变为复杂的系统工程。面对百亿量级的中英多模态数据，Seedream 2.0 团队构建了以“知识融合”为核心的预处理框架，从以下三个方面实现技术突破。

四维数据架构，实现质量与知识的动态平衡

传统图像生成模型训练数据筛选常面临“质量-规模”的两难抉择，数据量级是模型能力的基础，但大规模数据构建，往往伴随质量下滑，进而影响模型表现。为此，团队创新设计了四维拓扑网络，突破单一模态限制。

该架构包含四个数据层：

1）优质数据层：精选高分辨率、知识密度强的数据（如科学图解、艺术创作），奠定质量基础；

2）分布维持层：采用双层级降采样策略，从数据源维度对头部平台等比降维，从语义维度通过 10 万级细粒度聚类维持多样性；

3）知识注入层：构建 3 万 + 名词和 2000+ 动词分类体系，结合百亿级跨模态检索，为数据注入文化特征；

4）定向增强层：建立“缺陷发现-数据补充-效果验证”闭环，优化动作序列、反现实生成等场景。

这一架构有效平衡了数据质量与知识多样性，为模型训练提供坚实的数据支撑。

智能标注引擎：三级认知进化

传统标注的 Caption 系统受单模态理解局限，对图像内容描述不够全面精准。团队在其基础上，实现了智能标注引擎的三级认知进化，提升模型理解、识别能力。首先，构建分层描述体系，通过短、长和特殊场景 Caption 结合，实现多维度、多层级精准图片描述，既能捕捉图像核心内容，又能提供丰富细节与艺术解释。其次，建立文化专有名词映射库，实现跨语言对齐，将中英文生成质量差异压缩至 2% 以内，提升模型在多语言环境下表现。最后，引入动态质检机制，利用 LLM 进行预筛选，通过 Badcase 驱动 prompt 模板迭代，优化描述质量，确保数据质量与可靠性。

工程化重构：百亿数据的流水线并行处理

工程化方面，传统 ETL 流程存在算力错配与迭代迟滞痛点。这不仅导致非核心任务占用大量高算力资源，挤占核心任务资源，也造成数据处理流程难以适应业务与数据变化，限制整体效能。团队从两方面重构工程系统。一方面通过异构调度，将水印检测等非核心任务迁移至低算力集群，释放高算力资源用于关键任务。另一方面，采用“分片-校验-装载”三级流水线并行处理方法，打包速度提升 8 倍。这些改进大幅提高数据处理效率与质量，为大规模数据管理利用奠定基础。

2.预训练聚焦双语理解与文字渲染

在预训练阶段，团队基于大量用户调研与技术预判认为，多语言语义理解、双语文字渲染和多分辨率场景适配等模块的突破，对于图像生成技术发展极为关键，可大幅提升模型适用性与用户体验，满足不同语言文化背景的用户需求，并拓展应用场景。因此，Seedream 2.0 采用了全新的预训练架构设计，其整体框图如下。

具体来看，Seedream 2.0 从三个方面实现了关键技术升级。

原生双语对齐方案，打破语言视觉次元壁

面向双语文生图场景，传统的 CLIP / T5 编码器对中文语义和文化细节的捕捉能力有限，大语言模型虽具备多语言理解能力，但文本嵌入与图像特征的空间分布差异却导致扩散模型训练难以收敛。为此，团队提出基于 LLM 的双语对齐方案。通过大规模文本-图像对数据，微调 Decoder-Only 架构的 LLM，使文本 Embedding 与视觉特征形成空间映射对齐。同时，针对中文书法、方言俚语、专业术语等场景构建专用数据集，加强模型对文化符号的深度理解与感知。这种“预训练对齐 + 领域增强”的双轨策略，使模型能够直接从大量中英文数据中习得“地道”的本土知识，进而，准确生成具有文化细微差别的中文或英文美学表达图像，打破不同语言与视觉的次元壁。

让模型既看懂文本，又关注字体字形

在过去，图像生成模型的文本渲染常面临两难困境：依赖 ByT5 等字形模型易导致长文本布局混乱，而引入 OCR 图像特征又需额外布局规划模块。为此，团队构建了双模态编码融合系统 —— LLM 负责解析“文本要表达什么”，ByT5 专注刻画“文字应该长什么样”。具体来说，通过 MLP 投影层，将 ByT5 的字形特征对齐到 LLM 语义空间，二者拼接后输入扩散模型。此种方法下，字体、颜色、大小、位置等渲染属性不再依赖预设模板，而是通过 LLM 直接描述文本特征，进行端到端训练。如此一来，模型既能从训练数据中学习文本渲染特征，也可以基于编码后的渲染特征，高效学习渲染文本的字形特征。

三重升级 DiT 架构，让图像生成缩放自如

多分辨率生成是图像生成场景的常用需求，团队在 SD3 的 MMDiT 架构基础上，进行了两重升级：其一，在训练稳定性方面。团队引入 QK-Norm 抑制注意力矩阵的数值波动，结合全分片数据并行策略（FSDP），使模型训练收敛速度提升 300%。其二，团队设计了 Scaling ROPE 技术方案。传统二维旋转位置编码（RoPE）在分辨率变化时，可能会导致位置标识错位。Seedream 2.0 通过动态缩放因子调整编码，使图像中心区域在不同宽高比下，保持空间一致性。这使得模型在推理过程中，能够生成从未训练过的图像尺寸和各种分辨率。

3.后训练 RLHF 突破能力瓶颈

Seedream 2.0 的后训练过程包含四个阶段：其中，CT 和 SFT 增强模型美学吸引力；人类反馈对齐（RLHF）利用自研奖励模型与反馈算法，提升模型整体性能；Prompt Engineering 借助微调大语言模型优化美学与多样性表现；超分模型提高图像分辨率并修复细微结构错误。

其中最值得一提的是，团队开发了基于人类反馈对齐的（RLHF）优化系统，提升了 Seedream 2.0 整体性能。其核心工作包含以下三个方面：

多维度偏好数据体系，提升模型偏好上限

团队收集并整理了一个多功能的 Prompt 集合，专门用于奖励模型（RM）训练和反馈学习阶段，并通过构建跨版本和跨模型标注管道，增强了 RM 的领域适应性，并扩展了模型偏好的上限。在标注阶段，团队构建了多维融合注释。这一做法成功扩展了单一奖励模型的多维度偏好表征边界，促进模型在多个维度上实现帕累托最优。

三个不同奖励模型，给予专项提升

Seedream 2.0 直接利用 CLIP 嵌入空间距离，作为基础奖励值。这省去了回归头等冗余参数结构以及不稳定训练情况。同时，团队精心制作并训练了三个不同的奖励模型：图像文本对齐 RM、美学 RM 和文本渲染 RM。其中，文本渲染 RM 引入了触发式激活机制，在检测到“文本生成”类标签时，模型将强化字符细节优化能力，提升汉字生成准确率。

反复学习，驱动模型进化

团队通过直接最大化多个 RM 的奖励，以改进扩散模型。通过调整学习率、选择合适的去噪时间步长和实施权重指数滑动平均，实现了稳定的反馈学习训练。在反馈学习阶段，团队同时微调 DiT 和文本编码器。此种联合训练显著增强了模型在图像文本对齐和美学改进方面的能力。经过 RLHF 阶段对扩散模型和奖励模型的多轮迭代，团队进一步提高了模型性能。奖励曲线显示，在整个对齐过程中，不同奖励模型的表现分数值都呈现稳定且一致的上升趋势。

附字节跳动技术展示页：https://team.doubao.com/tech/seedream

技术报告：https://arxiv.org/pdf/2503.07703

本文链接：http://www.28at.com/showinfo-45-11456-0.html字节跳动豆包文生图技术报告发布：数据处理、预训练、RLHF 全流程公开

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：全球首个“一脑多机”通用具身智能平台“慧思开物”在京发布

下一篇：比亚迪3月17日发超级e平台，兆瓦闪充能否终结电车续航焦虑？

标签：

热门焦点

新周期，谁在坚守窄门？

来源：锦缎今日的投资者恐怕已经忘记了，在OpenAI创造出ChatGPT这一杀器的前夜，生成式AI也曾经是一道窄门，窄到连马斯克都差点失去了信心。在当时的舆论眼中，AGI的道路不够性感，不够
一个视频涨粉百万，柳夜熙们能成为元宇宙的“船票”吗？

当数字人成为一种生意，我们更关心的是，他们如何赚到钱，以及这意味着什么？01#“柳夜熙”爆火之后不知道大家还记不记得，去年10月31日万圣节，有一位虚拟美妆
【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

大规模预训GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大规模预训练模型（大模型）渐渐成为了AI算法领域的热点。AI产业链：从算力到应用工作流程视角•
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
冰墩墩还能火多久？

作者：田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁，冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推，以及日
韩国国民银行将推出韩国首个加密货币 ETF

韩国国民银行(Kookmin Bank)计划发行该国首个以散户投资者为主要关注点的加密货币投资基金。根据公告，该银行正在等待政府批准，并已建立一个准备就绪的数字资产
NFT世界的艺术家名单

我们汇编了以下艺术家的名单，它包括每个艺术家的简短概述。当然，这份名单肯定不全面，还有很多很多艺术家、哲学家和商业领袖为世界贡献了不可估量的价值。而他们
元宇宙平台会是上世纪末的互联网吗？

“元宇宙”火了好几个月，互联网大厂忙于布局，资本市场热烈追捧。然而很多人还是看不明白，更多的人觉得这是一场泡沫，一场骗局。一开始接触这个怪里怪气的名词，感觉
爆发在即的Layer2赛道百花齐放，谁将是领跑者？

还记得几年前最早我们提起ETH扩容，首先想到就是Layer2，而Layer2里，首先想到的是闪电网络，状态通道，Plasma…然后折腾了几年，发现并没有什么用，许多项目方和资本也等不

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

字节跳动豆包文生图技术报告发布：数据处理、预训练、RLHF 全流程公开

新周期，谁在坚守窄门？

一个视频涨粉百万，柳夜熙们能成为元宇宙的“船票”吗？

【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

比特币的价格越高，使用价值越大

冰墩墩还能火多久？

韩国国民银行将推出韩国首个加密货币 ETF

NFT世界的艺术家名单

元宇宙平台会是上世纪末的互联网吗？

爆发在即的Layer2赛道百花齐放，谁将是领跑者？

最新推荐

欧盟人工智能法案：四种AI系统风险类型的划分及监管措施

刷完一场元宇宙世界杯音乐盛典，我爽了

Niantic与索尼在音频AR领域达成合作；苹果为Apple Park申请形象化商标

这个好莱坞影视制作公司涉足NFT，让持有者在制作中发挥作用

MR——元宇宙平台的下一代入口

Ceramic：为Web3.0社交应用打造的中间件

猜你喜欢

热门推荐

相关资讯