当前位置:首页 > 元宇宙 > AI

字节跳动豆包文生图技术报告发布:数据处理、预训练、RLHF 全流程公开

来源: 责编: 时间:2025-03-14 12:40:41 202观看
导读 3 月 12 日消息,今天,豆包大模型团队正式发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节,覆盖数据构建、预训练框架、后训练 RLHF 全流程,针对Seedream 2.0 原生中英双语理解、文字渲染、高美感

3 月 12 日消息,今天,豆包大模型团队正式发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节,覆盖数据构建、预训练框架、后训练 RLHF 全流程,针对Seedream 2.0 原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现,进行了具体介绍。7JY28资讯网——每日最新资讯28at.com

7JY28资讯网——每日最新资讯28at.com

据介绍,豆包大模型团队文生图模型 Seedream 2.0于 2024 年 12 月初在豆包 App 和即梦上线,已服务上亿 C 端用户。7JY28资讯网——每日最新资讯28at.com

相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型,该模型更好解决了文本渲染能力欠佳、对中国文化理解不足等诸多实际问题,支持原生中英双语,美感、指令遵循等能力有整体提升。7JY28资讯网——每日最新资讯28at.com

团队为了较全面客观地评估模型,围绕图文匹配度、结构准确率、美感等基础维度,严格构建了 Bench-240 评测基准。通过测试,团队发现 Seedream 2.0面向英文提示词,其生成内容的结构合理性、文本理解准确性高于主流模型。7JY28资讯网——每日最新资讯28at.com

7JY28资讯网——每日最新资讯28at.com

中文综合能力同样突出,其生成与渲染文字可用率达 78%,完美响应率为 63%,高于业界目前其他模型。7JY28资讯网——每日最新资讯28at.com

7JY28资讯网——每日最新资讯28at.com

以下将从数据预处理、预训练、后训练维度介绍模型技术细节:7JY28资讯网——每日最新资讯28at.com

1. 深度融合知识的数据预处理框架

生成式 AI 技术,正从规模至上的“暴力美学”,向满足特定要求的“精准智能”转变,与之同步,数据预处理也演变为复杂的系统工程。面对百亿量级的中英多模态数据,Seedream 2.0 团队构建了以“知识融合”为核心的预处理框架,从以下三个方面实现技术突破。7JY28资讯网——每日最新资讯28at.com

四维数据架构,实现质量与知识的动态平衡7JY28资讯网——每日最新资讯28at.com

传统图像生成模型训练数据筛选常面临“质量-规模”的两难抉择,数据量级是模型能力的基础,但大规模数据构建,往往伴随质量下滑,进而影响模型表现。为此,团队创新设计了四维拓扑网络,突破单一模态限制。7JY28资讯网——每日最新资讯28at.com

该架构包含四个数据层:7JY28资讯网——每日最新资讯28at.com

1)优质数据层:精选高分辨率、知识密度强的数据(如科学图解、艺术创作),奠定质量基础;7JY28资讯网——每日最新资讯28at.com

2)分布维持层:采用双层级降采样策略,从数据源维度对头部平台等比降维,从语义维度通过 10 万级细粒度聚类维持多样性;7JY28资讯网——每日最新资讯28at.com

3)知识注入层:构建 3 万 + 名词和 2000+ 动词分类体系,结合百亿级跨模态检索,为数据注入文化特征;7JY28资讯网——每日最新资讯28at.com

4)定向增强层:建立“缺陷发现-数据补充-效果验证”闭环,优化动作序列、反现实生成等场景。7JY28资讯网——每日最新资讯28at.com

这一架构有效平衡了数据质量与知识多样性,为模型训练提供坚实的数据支撑。7JY28资讯网——每日最新资讯28at.com

7JY28资讯网——每日最新资讯28at.com

智能标注引擎:三级认知进化7JY28资讯网——每日最新资讯28at.com

传统标注的 Caption 系统受单模态理解局限,对图像内容描述不够全面精准。团队在其基础上,实现了智能标注引擎的三级认知进化,提升模型理解、识别能力。首先,构建分层描述体系,通过短、长和特殊场景 Caption 结合,实现多维度、多层级精准图片描述,既能捕捉图像核心内容,又能提供丰富细节与艺术解释。其次,建立文化专有名词映射库,实现跨语言对齐,将中英文生成质量差异压缩至 2% 以内,提升模型在多语言环境下表现。最后,引入动态质检机制,利用 LLM 进行预筛选,通过 Badcase 驱动 prompt 模板迭代,优化描述质量,确保数据质量与可靠性。7JY28资讯网——每日最新资讯28at.com

工程化重构:百亿数据的流水线并行处理7JY28资讯网——每日最新资讯28at.com

工程化方面,传统 ETL 流程存在算力错配与迭代迟滞痛点。这不仅导致非核心任务占用大量高算力资源,挤占核心任务资源,也造成数据处理流程难以适应业务与数据变化,限制整体效能。团队从两方面重构工程系统。一方面通过异构调度,将水印检测等非核心任务迁移至低算力集群,释放高算力资源用于关键任务。另一方面,采用“分片-校验-装载”三级流水线并行处理方法,打包速度提升 8 倍。这些改进大幅提高数据处理效率与质量,为大规模数据管理利用奠定基础。7JY28资讯网——每日最新资讯28at.com

2.预训练聚焦双语理解与文字渲染

在预训练阶段,团队基于大量用户调研与技术预判认为,多语言语义理解、双语文字渲染和多分辨率场景适配等模块的突破,对于图像生成技术发展极为关键,可大幅提升模型适用性与用户体验,满足不同语言文化背景的用户需求,并拓展应用场景。因此,Seedream 2.0 采用了全新的预训练架构设计,其整体框图如下。7JY28资讯网——每日最新资讯28at.com

7JY28资讯网——每日最新资讯28at.com

具体来看,Seedream 2.0 从三个方面实现了关键技术升级。7JY28资讯网——每日最新资讯28at.com

原生双语对齐方案,打破语言视觉次元壁7JY28资讯网——每日最新资讯28at.com

面向双语文生图场景,传统的 CLIP / T5 编码器对中文语义和文化细节的捕捉能力有限,大语言模型虽具备多语言理解能力,但文本嵌入与图像特征的空间分布差异却导致扩散模型训练难以收敛。为此,团队提出基于 LLM 的双语对齐方案。通过大规模文本-图像对数据,微调 Decoder-Only 架构的 LLM,使文本 Embedding 与视觉特征形成空间映射对齐。同时,针对中文书法、方言俚语、专业术语等场景构建专用数据集,加强模型对文化符号的深度理解与感知。这种“预训练对齐 + 领域增强”的双轨策略,使模型能够直接从大量中英文数据中习得“地道”的本土知识,进而,准确生成具有文化细微差别的中文或英文美学表达图像,打破不同语言与视觉的次元壁。7JY28资讯网——每日最新资讯28at.com

让模型既看懂文本,又关注字体字形7JY28资讯网——每日最新资讯28at.com

在过去,图像生成模型的文本渲染常面临两难困境:依赖 ByT5 等字形模型易导致长文本布局混乱,而引入 OCR 图像特征又需额外布局规划模块。为此,团队构建了双模态编码融合系统 —— LLM 负责解析“文本要表达什么”,ByT5 专注刻画“文字应该长什么样”。具体来说,通过 MLP 投影层,将 ByT5 的字形特征对齐到 LLM 语义空间,二者拼接后输入扩散模型。此种方法下,字体、颜色、大小、位置等渲染属性不再依赖预设模板,而是通过 LLM 直接描述文本特征,进行端到端训练。如此一来,模型既能从训练数据中学习文本渲染特征,也可以基于编码后的渲染特征,高效学习渲染文本的字形特征。7JY28资讯网——每日最新资讯28at.com

三重升级 DiT 架构,让图像生成缩放自如7JY28资讯网——每日最新资讯28at.com

多分辨率生成是图像生成场景的常用需求,团队在 SD3 的 MMDiT 架构基础上,进行了两重升级:其一,在训练稳定性方面。团队引入 QK-Norm 抑制注意力矩阵的数值波动,结合全分片数据并行策略(FSDP),使模型训练收敛速度提升 300%。其二,团队设计了 Scaling ROPE 技术方案。传统二维旋转位置编码(RoPE)在分辨率变化时,可能会导致位置标识错位。Seedream 2.0 通过动态缩放因子调整编码,使图像中心区域在不同宽高比下,保持空间一致性。这使得模型在推理过程中,能够生成从未训练过的图像尺寸和各种分辨率。7JY28资讯网——每日最新资讯28at.com

3.后训练 RLHF 突破能力瓶颈

Seedream 2.0 的后训练过程包含四个阶段:其中,CT 和 SFT 增强模型美学吸引力;人类反馈对齐(RLHF)利用自研奖励模型与反馈算法,提升模型整体性能;Prompt Engineering 借助微调大语言模型优化美学与多样性表现;超分模型提高图像分辨率并修复细微结构错误。7JY28资讯网——每日最新资讯28at.com

7JY28资讯网——每日最新资讯28at.com

其中最值得一提的是,团队开发了基于人类反馈对齐的(RLHF)优化系统,提升了 Seedream 2.0 整体性能。其核心工作包含以下三个方面:7JY28资讯网——每日最新资讯28at.com

多维度偏好数据体系,提升模型偏好上限7JY28资讯网——每日最新资讯28at.com

团队收集并整理了一个多功能的 Prompt 集合,专门用于奖励模型(RM)训练和反馈学习阶段,并通过构建跨版本和跨模型标注管道,增强了 RM 的领域适应性,并扩展了模型偏好的上限。在标注阶段,团队构建了多维融合注释。这一做法成功扩展了单一奖励模型的多维度偏好表征边界,促进模型在多个维度上实现帕累托最优。7JY28资讯网——每日最新资讯28at.com

三个不同奖励模型,给予专项提升7JY28资讯网——每日最新资讯28at.com

Seedream 2.0 直接利用 CLIP 嵌入空间距离,作为基础奖励值。这省去了回归头等冗余参数结构以及不稳定训练情况。同时,团队精心制作并训练了三个不同的奖励模型:图像文本对齐 RM、美学 RM 和文本渲染 RM。其中,文本渲染 RM 引入了触发式激活机制,在检测到“文本生成”类标签时,模型将强化字符细节优化能力,提升汉字生成准确率。7JY28资讯网——每日最新资讯28at.com

反复学习,驱动模型进化7JY28资讯网——每日最新资讯28at.com

团队通过直接最大化多个 RM 的奖励,以改进扩散模型。通过调整学习率、选择合适的去噪时间步长和实施权重指数滑动平均,实现了稳定的反馈学习训练。在反馈学习阶段,团队同时微调 DiT 和文本编码器。此种联合训练显著增强了模型在图像文本对齐和美学改进方面的能力。经过 RLHF 阶段对扩散模型和奖励模型的多轮迭代,团队进一步提高了模型性能。奖励曲线显示,在整个对齐过程中,不同奖励模型的表现分数值都呈现稳定且一致的上升趋势。7JY28资讯网——每日最新资讯28at.com

7JY28资讯网——每日最新资讯28at.com

附字节跳动技术展示页:https://team.doubao.com/tech/seedream7JY28资讯网——每日最新资讯28at.com

技术报告:https://arxiv.org/pdf/2503.077037JY28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-11456-0.html字节跳动豆包文生图技术报告发布:数据处理、预训练、RLHF 全流程公开

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 全球首个“一脑多机”通用具身智能平台“慧思开物”在京发布

下一篇: 比亚迪3月17日发超级e平台,兆瓦闪充能否终结电车续航焦虑?

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 10亿基金,李彦宏呼唤下一个AI独角兽

    ©️深响原创 · 作者|何文 AI太热了。 在海外,OpenAI估值已超270亿美元、英伟达市值破万亿、微软把GPT整合进了全线产品。在国内,百度、阿里、华为、商汤等大公司,以及
  • 上、中、下游加深融合,搭建元宇宙产业全景

    元宇宙产业链涉及多种技术和多个领域。在上游,聚集着大量的技术厂商,提供元宇宙相关的硬件和软件支持;在中游,内容运营与分发领域也吸引着越来越多的企业以VR内容
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 本周NFT领域重要资讯回顾

    NFT在苏富比拍卖是一波三折的吗?其实不完全如此,但本周在苏富比拍卖行发生了一系列有趣的事。与此同时,美联社因其最新的NFT销售被推到了风口浪尖,而Opensea正面临
  • NFT也有黄牛?这家公司专门对付外挂作弊机器人

    澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一,Sam是一名出生于纽卡斯尔的黑客,他的职业生涯始于为国防
  • 下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 美国单曲排行榜Billboard和World of Women合作推出NFT杂志封面

    今天,Billboard宣布与流行的NFT头像集World of Women(WoW)建立新的伙伴关系,向NFT生态系统又迈进了一步。在这次合作中,WoW的创建者Yam Karkai将帮助这个音乐行业巨
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top