当前位置:首页 > 元宇宙 > AI

字节 Seed 开源统一多模态理解和生成模型 BAGEL

来源: 责编: 时间:2025-06-04 16:57:15 158观看
导读 6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。

6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了与专业生成器如 SD3 竞争的文本到图像质量。Vyf28资讯网——每日最新资讯28at.com

此外,BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

具体来看,BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

▲混合输入-混合输出

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外,还引入了长思维链 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

▲BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

基于交错的多模态数据预训练,BAGEL 自然地学会了保留视觉特征和细微细节,并且能从视频中捕捉复杂的视觉运动,这些能力使得 BAGEL 在图像编辑上更为高效。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

▲基于同一人物形象进行图像编辑

基于对视觉内容和风格的理解,BAGEL 仅使用较少的对齐数据,即可实现图片的风格切换,甚至还可转换至不同场景中。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

▲BAGEL 实现多种风格迁移

此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。Vyf28资讯网——每日最新资讯28at.com

Vyf28资讯网——每日最新资讯28at.com

▲图片剪切-智能编辑-场景转换-风格转换组合功能

附 BAGEL 开源地址:Vyf28资讯网——每日最新资讯28at.com

官网及体验入口:Vyf28资讯网——每日最新资讯28at.com

https://seed.bytedance.com/bagelVyf28资讯网——每日最新资讯28at.com

GitHub 代码:Vyf28资讯网——每日最新资讯28at.com

https://github.com/bytedance-seed/BAGELVyf28资讯网——每日最新资讯28at.com

模型权重:Vyf28资讯网——每日最新资讯28at.com

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoTVyf28资讯网——每日最新资讯28at.com

研究论文:Vyf28资讯网——每日最新资讯28at.com

https://arxiv.org/pdf/2505.14683Vyf28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-13401-0.html字节 Seed 开源统一多模态理解和生成模型 BAGEL

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 任天堂《塞尔达传说》手机伴侣应用被指使用生成式 AI 配音

下一篇: OpenAI 更新编程工具 Codex:新增语音输入 + 联网,向 ChatGPT Plus 用户开放

标签:
  • 热门焦点
  • AI大模型“战火”烧到了教育领域

    作者:刘旷自2023年开年以来,AI大模型这股风是越吹越猛烈了。随着ChatGPT的出圈爆火,再度掀起了一波AI热浪,无论是在国内还是国外都有不少企业宣布入局或者跟进AI大模型领域。与
  • 星展银行(DBS)计划推出零售数字资产交易服务

    2月14日消息,新加坡星展银行CEO Piyush Gupta在财报会议上表示,计划于2022年年底前推出零售数字资产交易服务。据悉,DBS于2021年初开设了机构数字资产交易平台,全
  • 借VR产业东风,江西抢滩布局“元宇宙”

    自2016年起就在VR上倾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技术是通往元宇宙的关键接口,使人们可以在数字空间和物理空间自由穿梭。自2016年起
  • 用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

    你可能听说过不可伪造的代币,或NFTs。NFTs是数字代币,代表完全独特的项目的所有权;存储在区块链中并可追踪,它们不能被修改、替换或复制。作为NFT铸造的资产在数字
  • Snoop Dogg 计划推出致力于数字媒体NFT的专业公司

    雅痞哥不知道这人是谁还上新闻,问了助理,解释,相当于美版刘欢的地位吧。Snoop Dogg 在 NFT 领域已经有一段时间了,尤其是在最近有消息称人们在元宇宙中购买房地产
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
  • 大厂打造元宇宙平台的业务重心是什么?

    知名市场研究机构IDC发布《2022年中国元宇宙市场十大预测》报告,其中提出互联网大厂各自独立布局元宇宙平台。事实上,在2021年的最后一个季度,包括Meta、英伟达、
  • Staking 收益翻倍?

    以太坊质押可能很快就会有两倍的利润。Coinbase 估计,在 1 月份以太坊网络合并后,持有 ETH 的回报将翻倍。增长预期假设来自加密货币交易所 Coinbase 的估计是准
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
Top