当前位置:首页 > 元宇宙 > AI

百川智能上线开源全模态模型 Omni-1.5,号称多项能力超越 GPT-4o mini

来源: 责编: 时间:2025-01-28 08:57:22 167观看
导读 1 月 26 日消息,百川智能今日宣布,Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。官方宣称,其在视觉、语音及多模态流式处理

1 月 26 日消息,百川智能今日宣布,Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。ZSy28资讯网——每日最新资讯28at.com

官方宣称,其在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5 的表现均优于 GPT-4o mini;在多模态医疗应用领域,其具备更突出的领先优势。ZSy28资讯网——每日最新资讯28at.com

Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作,还拥有强大的多模态推理能力和跨模态迁移能力。ZSy28资讯网——每日最新资讯28at.com

ZSy28资讯网——每日最新资讯28at.com

其在音频技术领域采用了端到端解决方案,可支持多语言对话、端到端音频合成,还可实现自动语音识别、文本转语音等功能,且支持音视频实时交互。ZSy28资讯网——每日最新资讯28at.com

据介绍,在视频理解能力方面,Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化,其整体性能大幅超越 GPT-4o-mini。ZSy28资讯网——每日最新资讯28at.com

ZSy28资讯网——每日最新资讯28at.com

ZSy28资讯网——每日最新资讯28at.com

模型结构方面,Baichuan-Omni-1.5 的模型输入部分支持各种模态通过相应的 Encoder / Tokenizer 输入到大型语言模型中。ZSy28资讯网——每日最新资讯28at.com

而在模型输出部分,Baichuan-Omni-1.5 采用了文本-音频交错输出的设计,通过 Text Tokenizer 和 Audio Decoder 同时生成文本和音频。ZSy28资讯网——每日最新资讯28at.com

百川智能构建了一个包含 3.4 亿条高质量图片 / 视频-文本数据和近 100 万小时音频数据的庞大数据库,且在 SFT 阶段使用了 1700 万条全模态数据。ZSy28资讯网——每日最新资讯28at.com

附开源地址如下:ZSy28资讯网——每日最新资讯28at.com

GitHub:ZSy28资讯网——每日最新资讯28at.com

https://github.com/baichuan-inc/Baichuan-Omni-1.5ZSy28资讯网——每日最新资讯28at.com

模型权重:ZSy28资讯网——每日最新资讯28at.com

Baichuan-Omni-1.5:ZSy28资讯网——每日最新资讯28at.com

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5ZSy28资讯网——每日最新资讯28at.com

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5ZSy28资讯网——每日最新资讯28at.com

Baichuan-Omni-1.5-Base:ZSy28资讯网——每日最新资讯28at.com

https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-BaseZSy28资讯网——每日最新资讯28at.com

https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-BaseZSy28资讯网——每日最新资讯28at.com

技术报告:ZSy28资讯网——每日最新资讯28at.com

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdfZSy28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10216-0.html百川智能上线开源全模态模型 Omni-1.5,号称多项能力超越 GPT-4o mini

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

下一篇: 印度首富计划建设“世界最大”数据中心,预计投资 200~300 亿美元

标签:
  • 热门焦点
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    在女性遭受性骚扰甚至被攻击的事件相继被报道之后,仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
  • 中国区块链产业生态地图报告(2021)

    区块链是技术整合创新、金融创新、组织方式创新、产业应用创新的多维度创新,以服务实体经济、政务民生以及公共服务等领域为落脚点,以期实现整个地区和产业的资
  • Meta、谷歌、微软竞相涌入元宇宙,小型企业该如何伺机而动?

    目前来看元宇宙不会影响到小型企业的发展,但在接下来的十年内可能会发生很多变化。很多有商业头脑的企业家都在密切关注着元宇宙的发展。元宇宙这个词,你一定或
  • NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 暴涨100倍的NFT worlds 会是未来元宇宙的雏形吗?

    NFT Worlds 系列产品于 2021 年 10 月 5 日免费铸造,该NFT系列是将传统的中心化电子游戏minecraft 与去中心化资产相结合。传统游戏Minecraft 对用户定制非常开
  • 在元宇宙开会是什么样一种体验

    空间就是一切还记得面对面的会议吗?就在不久前,与会者需要飞到遥远的目的地,并进行鼓舞人心的对话、网络、免费食物,甚至可能会有一两个很好的小组讨论。随之而来
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
  • 在互联网考古后,我被豆瓣上这座元宇宙古城征服了

    最近一段时间,豆瓣可谓命途多舛:APP屡次下架,平台也被相关部门约谈、处罚,国家网信办甚至派人入驻豆瓣以督促整改。有爆料称豆瓣将陆续关闭“小组”功能:这个曾经小
Top