当前位置:首页 > 元宇宙 > AI

百川智能上线开源全模态模型 Omni-1.5,号称多项能力超越 GPT-4o mini

来源: 责编: 时间:2025-01-28 08:57:22 212观看
导读 1 月 26 日消息,百川智能今日宣布,Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。官方宣称,其在视觉、语音及多模态流式处理

1 月 26 日消息,百川智能今日宣布,Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。OrJ28资讯网——每日最新资讯28at.com

官方宣称,其在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini;在多模态医疗应用领域,其具备更突出的领先优势。OrJ28资讯网——每日最新资讯28at.com

Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。OrJ28资讯网——每日最新资讯28at.com

OrJ28资讯网——每日最新资讯28at.com

其在音频技术领域采用了端到端解决方案,可支持多语言对话、端到端音频合成,还可实现自动语音识别、文本转语音等功能,且支持音视频实时交互。OrJ28资讯网——每日最新资讯28at.com

据介绍,在视频理解能力方面,Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,其整体性能大幅超越 GPT-4o-mini。OrJ28资讯网——每日最新资讯28at.com

OrJ28资讯网——每日最新资讯28at.com

OrJ28资讯网——每日最新资讯28at.com

模型结构方面,Baichuan-Omni-1.5 的模型输入部分支持各种模态通过相应的 Encoder / Tokenizer 输入到大型语言模型中。OrJ28资讯网——每日最新资讯28at.com

而在模型输出部分,Baichuan-Omni-1.5 采用了文本-音频交错输出的设计,通过 Text Tokenizer 和 Audio Decoder 同时生成文本和音频。OrJ28资讯网——每日最新资讯28at.com

百川智能构建了一个包含 3.4 亿条高质量图片 / 视频-文本数据和近 100 万小时音频数据的庞大数据库,且在 SFT 阶段使用了 1700 万条全模态数据。OrJ28资讯网——每日最新资讯28at.com

附开源地址如下:OrJ28资讯网——每日最新资讯28at.com

GitHub:OrJ28资讯网——每日最新资讯28at.com

https://github.com/baichuan-inc/Baichuan-Omni-1.5OrJ28资讯网——每日最新资讯28at.com

模型权重:OrJ28资讯网——每日最新资讯28at.com

Baichuan-Omni-1.5:OrJ28资讯网——每日最新资讯28at.com

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5OrJ28资讯网——每日最新资讯28at.com

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5OrJ28资讯网——每日最新资讯28at.com

Baichuan-Omni-1.5-Base:OrJ28资讯网——每日最新资讯28at.com

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-BaseOrJ28资讯网——每日最新资讯28at.com

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-BaseOrJ28资讯网——每日最新资讯28at.com

技术报告:OrJ28资讯网——每日最新资讯28at.com

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdfOrJ28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10216-0.html百川智能上线开源全模态模型 Omni-1.5,号称多项能力超越 GPT-4o mini

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

下一篇: 印度首富计划建设“世界最大”数据中心,预计投资 200~300 亿美元

标签:
  • 热门焦点
  • 元宇宙火热的当下,我们该如何“身临其境”的体验元宇宙?

    元宇宙的余热依然没有过去,甚至大有星星之火开启燎原之势,元宇宙本身也从殿堂走向了民间,我们可以看到一些企业开始了元宇宙的探索,诸如中国电信全资控股子公司天
  • Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    在女性遭受性骚扰甚至被攻击的事件相继被报道之后,仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • 从虚拟餐厅到虚拟时装秀,行业巨头掀起元宇宙商标注册潮

    自从 Facebook 更名为 Meta 后,关于元宇宙的讨论愈发激烈,这一词汇也越来越多的出现在我们的视野里。这是一个非常有趣的话题。伴随着争论,有些人认为是马克·扎
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 虚拟邓丽君后,数字人赛道开启3.0时代

    “如果右脑时代来临,虚拟世界将是对人类才华的无限放大。” 郭晓喆称,开发数字人形象时,自己的团队在内部“卷”了一下:“当我们翻阅大量历史典籍的时候,苏小妹找到
  • NFT行业周报:NBA巨星勒布朗·詹姆斯申请NFT相关商标

    1. “无聊猿”BAYC交易总额突破14亿美元3月10日,据DappRader最新数据显示,“无聊猿”Bored Ape Yacht Club(BAYC)交易总额已突破14亿美元,创下历史新高,本文撰写时为
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top