当前位置:首页 > 科技  > 软件

昆仑万维 2050 全球研究院联合 NUS、NTU 发布 Vitron

来源: 责编: 时间:2024-04-26 08:46:02 247观看
导读 近日,由颜水成教授带队,昆仑万维 2050 全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了 Vitron 通用像素级视觉多模态大语言模型。这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视

近日,由颜水成教授带队,昆仑万维 2050 全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了 Vitron 通用像素级视觉多模态大语言模型。msA28资讯网——每日最新资讯28at.com

这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像 / 视频模型割裂问题,提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。msA28资讯网——每日最新资讯28at.com

Vitron 作为一个统一的像素级视觉多模态大语言模型,实现了从低层次到高层次的视觉任务的全面支持,能够处理复杂的视觉任务,并理解和生成图像和视频内容,提供了强大的视觉理解和任务执行能力。同时,Vitron 支持与用户的连续操作,实现了灵活的人机互动,展示了通向更统一的视觉多模态通用模型的巨大潜力。msA28资讯网——每日最新资讯28at.com

Vitron 相关的论文、代码和 Demo 已全部公开,其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力,不仅推动了多模态大模型的发展,还为未来的视觉大模型研究提供了一个新的方向。msA28资讯网——每日最新资讯28at.com

一直以来,昆仑万维 2050 全球研究院都致力于打造一家面向未来世界的卓越科学研究机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。此前,昆仑万维 2050 全球研究院已经发布并开源了数字智能体研发工具包 AgentStudio,未来,研究院还将不断推动人工智能技术突破,为中国人工智能生态建设贡献力量。msA28资讯网——每日最新资讯28at.com

当前视觉大语言模型(LLMs)的发展取得了喜人进展。社区越来越相信,构建更通用、更强大的多模态大模型(MLLMs)将会是通向通用人工智能(AGI)的必经之路。但在向多模态通用大模型(Generalist)的迈进过程中,目前仍存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解,或者缺乏对图像和视频的统一支持。抑或对于各种视觉任务的支持不充分,离通用大模型相差甚远。msA28资讯网——每日最新资讯28at.com

为了填补这个空白,近日,昆仑万维 2050 全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布开源了 Vitron 通用像素级视觉多模态大语言模型。Vitron 支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务。msA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

上图综合描绘了 Vitron 在四大视觉相关任务的功能支持,以及其关键优势。Vitron 还支持与用户的连续操作,实现灵活的人机互动。该项目展示了面向更统一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。msA28资讯网——每日最新资讯28at.com

Vitron 相关论文、代码、Demo 目前已全部公开。msA28资讯网——每日最新资讯28at.com

论文标题:Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, EditingmsA28资讯网——每日最新资讯28at.com

项目主页 & Demo:https://vitron-llm.github.io/msA28资讯网——每日最新资讯28at.com

论文链接:https://is.gd/aGu0VVmsA28资讯网——每日最新资讯28at.com

开源代码:https://github.com/SkyworkAI/VitronmsA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

01.大一统的终极多模态大语言模型msA28资讯网——每日最新资讯28at.com

近年来,大语言模型(LLMs)展现出了前所未有的强大能力,其被逐渐验证为乃是通向 AGI 的技术路线。而多模态大语言模型(MLLMs)在多个社区火爆发展且迅速出圈,通过引入能进行视觉感知的模块,扩展纯语言基础 LLMs 至 MLLMs,众多在图像理解方面强大卓越的 MLLMs 被研发问世,例如 BLIP-2、LLaVA、MiniGPT-4 等等。与此同时,专注于视频理解的 MLLMs 也陆续面世,如 VideoChat、Video-LLaMA 和 Video-LLaVA 等等。msA28资讯网——每日最新资讯28at.com

随后,研究人员主要从两个维度试图进一步扩展 MLLMs 的能力。一方面,研究人员尝试深化 MLLMs 对视觉的理解,从粗略的实例级理解过渡到对图像的像素级细粒度理解,从而实现视觉区域定位(Regional Grounding)能力,如 GLaMM、PixelLM、NExT-Chat 和 MiniGPT-v2 等。另一方面,研究人员尝试扩展 MLLMs 可以支持的视觉功能。部分研究已经开始研究让 MLLMs 不仅理解输入视觉信号,还能支持生成输出视觉内容。比如,GILL、Emu 等 MLLMs 能够灵活生成图像内容,以及 GPT4Video 和 NExT-GPT 实现视频生成。msA28资讯网——每日最新资讯28at.com

目前人工智能社区已逐渐达成一致,认为视觉 MLLMs 的未来趋势必然会朝着高度统一、能力更强的方向发展。然而,尽管社区开发了众多的 MLLMs,但仍然存在明显的鸿沟。msA28资讯网——每日最新资讯28at.com

首先,几乎所有现有的视觉 LLMs 将图像和视频视为不同的实体,要么仅支持图像,要么仅支持视频。研究人员主张,视觉应该同时包含了静态图像和动态视频两个方面的内涵 —— 这两者都是视觉世界的核心组成,在大多数场景中甚至可以互换。所以,需要构建一个统一的 MLLM 框架能够同时支持图像和视频模态。msA28资讯网——每日最新资讯28at.com

其次,目前 MLLMs 对视觉功能的支持还有所不足。大多数模型仅能进行理解,或者最多生成图像或视频。研究人员认为,未来的 MLLMs 应该是一个通用大语言模型,能覆盖更广泛的视觉任务和操作范围,实现对所有视觉相关任务的统一支持,达到“one for all”的能力。这点对实际应用尤其是在经常涉及一系列迭代和交互操作的视觉创作中至关重要。例如,用户通常首先从文本开始,通过文生图,将一个想法转化为视觉内容;然后通过进一步的细粒度图像编辑来完善初始想法,添加更多细节;接着,通过图像生成视频来创建动态内容;最后,进行几轮迭代交互,如视频编辑,完善创作。msA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

上表简单地归纳了现有的视觉 MLLM 的能力(只代表性地囊括了部分模型,覆盖不完整)。为了弥补这些差距,该团队提出一种通用的像素级视觉 MLLM——Vitron。msA28资讯网——每日最新资讯28at.com

02. Vitron 系统架构:三大关键模块msA28资讯网——每日最新资讯28at.com

Vitron 整体框架如下图所示。Vitron 采用了与现有相关 MLLMs 相似的架构,包括三个关键部分:1) 前端视觉 & 语言编码模块,2) 中心 LLM 理解和文本生成模块,以及 3) 后端用户响应和模块调用以进行视觉操控模块。msA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

前端模块:视觉-语言编码。为了感知图像和视频模态信号,并支持细粒度用户视觉输入,Vitron 集成了图像编码器、视频编码器、区域框 / 草图编码器。msA28资讯网——每日最新资讯28at.com

中心模块:核心 LLM。Vitron 使用的是 Vicuna(7B,1.5),来实现理解、推理、决策制定和多轮用户交互。msA28资讯网——每日最新资讯28at.com

后端模块:用户响应与模块调用。Vitron 采用以文本为中心的调用策略,整合现成的几个强大先进(SoTA)的图像和视频处理模块,用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法,Vitron 不仅实现了系统统一,还确保了对齐效率和系统可扩展性。msA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

03. Vitron 模型训练三大阶段msA28资讯网——每日最新资讯28at.com

基于上述架构,再对 Vitron 进行训练微调,以赋予其强大的视觉理解和任务执行能力。模型训练主要囊括三个不同的阶段。msA28资讯网——每日最新资讯28at.com

步骤一:视觉-语言整体对齐学习。将输入的视觉语言特征映射到一个统一的特征空间中,从而使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉-语言对齐学习,可以让系统具备整体上有效处理传入的视觉信号。研究人员采用了现存的图像-标题对(CC3M)、视频-标题对(Webvid)和区域-标题对(RefCOCO)的数据集进行训练。msA28资讯网——每日最新资讯28at.com

步骤二:细粒度的时空视觉定位指令微调。系统采用了调用外部模块方式来执行各种像素级视觉任务,但 LLM 本身并未经过任何细粒度的视觉训练,这将会阻碍了系统实现真正的像素级视觉理解。为此,研究人员提出了一种细粒度的时空视觉定位指令微调训练,核心思想是使 LLM 能够定位图像的细粒度空间性和视频的具体时序特性。msA28资讯网——每日最新资讯28at.com

步骤三:输出端面向命令调用的指令微调。上述第二阶段的训练赋予了 LLM 和前端编码器在像素级别理解视觉的能力。这最后一步,面向命令调用的指令微调,旨在让系统具备精确执行命令的能力,允许 LLM 生成适当且正确的调用文本。由于不同的终端视觉任务可能需要不同的调用命令,为了统一这一点,研究人员提出将 LLM 的响应输出标准化为结构化文本格式,其中包括:msA28资讯网——每日最新资讯28at.com

1)用户响应输出,直接回复用户的输入。msA28资讯网——每日最新资讯28at.com

2)模块名称,指示将要执行的功能或任务。msA28资讯网——每日最新资讯28at.com

3)调用命令,触发任务模块的元指令。msA28资讯网——每日最新资讯28at.com

4)区域(可选输出),指定某些任务所需的细粒度视觉特征,例如在视频跟踪或视觉编辑中,后端模块需要这些信息。对于区域,基于 LLM 的像素级理解,将输出由坐标描述的边界框。msA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

04.评估实验msA28资讯网——每日最新资讯28at.com

研究人员基于 Vitron 在 22 个常见的基准数据集、12 个图像 / 视频视觉任务上进行了广泛的实验评估。Vitron 展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的强大能力,与此同时其具备灵活的人机交互能力。以下代表性地展示了一些定性比较结果:msA28资讯网——每日最新资讯28at.com

Vision SegmentationmsA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

Results of image referring image segmentationmsA28资讯网——每日最新资讯28at.com

Fine-grained Vision UnderstandingmsA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

Results of image referring expression comprehension.msA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

Results on video QA.msA28资讯网——每日最新资讯28at.com

Vision GenerationmsA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

Text-to-Image GenerationText-to-Video generationImage-to-Video generationmsA28资讯网——每日最新资讯28at.com

Vision EditingmsA28资讯网——每日最新资讯28at.com

msA28资讯网——每日最新资讯28at.com

Image editing resultsmsA28资讯网——每日最新资讯28at.com

具体更多详细实验内容和细节请移步论文。msA28资讯网——每日最新资讯28at.com

05.未来方向展望msA28资讯网——每日最新资讯28at.com

总体上,这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力,为下一代视觉大模型的研究奠定了一个新的形态,迈出了这个方向的第一步。尽管团队所提出的 Vitron 系统表现出强大的通用能力,但依然存在自身的局限性。以下研究人员列出一些未来可进一步探索的方向。msA28资讯网——每日最新资讯28at.com

系统架构msA28资讯网——每日最新资讯28at.com

Vitron 系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与 LLM 核心模块的联合学习。这一限制不利于系统的整体学习,这意味着不同视觉任务的性能上限将受到后端模块的限制。未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。目前一种有希望的方式是结合 modality-persistent 的 tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。msA28资讯网——每日最新资讯28at.com

用户交互性msA28资讯网——每日最新资讯28at.com

与之前专注于单一视觉任务的模型(例如,Stable Diffusion 和 SEEM)不同,Vitron 旨在促进 LLM 和用户之间的深度交互,类似于行业内的 OpenAI 的 DALL-E 系列,Midjourney 等。实现最佳的用户交互性是本项工作的核心目标之一。Vitron 利用现有的基于语言的 LLM,结合适当的指令调整,以实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的 Midjourney 系统汲取灵感,不论 LLM 在每一步做出何种决定,系统都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。msA28资讯网——每日最新资讯28at.com

模态能力msA28资讯网——每日最新资讯28at.com

当前,Vitron 集成了一个 7B 的 Vicuna 模型,其可能对其理解语言、图像和视频的能力会产生某些限制。未来的探索方向可以发展一个全面的端到端系统,比如扩大模型的规模,以实现对视觉的更彻底和全面的理解。此外,应该努力使 LLM 能够完全统一图像和视频模态的理解。msA28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-85572-0.html昆仑万维 2050 全球研究院联合 NUS、NTU 发布 Vitron

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀华为并列 Q1 中国智能机市场第一

下一篇: 国产 PC 新势力,攀升电脑多款主机等你来选购

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 影音体验是真的强 简单聊聊iQOO Pad

    大公司的好处就是产品线丰富,非常细分化的东西也能给你做出来,例如早先我们看到了新的vivo Pad2,之后我们又在iQOO Neo8 Pro的发布会上看到了iQOO的首款平板产品iQOO Pad。虽
  • 6月iOS设备性能榜:M2稳居榜首 A系列只能等一手3nm来救

    没有新品发布,自然iOS设备性能榜的上榜设备就没有什么更替,仅仅只有跑分变化而产生的排名变动,毕竟苹果新品的发布节奏就是这样的,一年下来也就几个移动端新品,不会像安卓厂商,一
  • 十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 深度探索 Elasticsearch 8.X:function_score 参数解读与实战案例分析

    在 Elasticsearch 中,function_score 可以让我们在查询的同时对搜索结果进行自定义评分。function_score 提供了一系列的参数和函数让我们可以根据需求灵活地进行设置。近期
  • 三万字盘点 Spring 九大核心基础功能

    大家好,我是三友~~今天来跟大家聊一聊Spring的9大核心基础功能。话不多说,先上目录:图片友情提示,本文过长,建议收藏,嘿嘿嘿!一、资源管理资源管理是Spring的一个核心的基础功能,不
  • 每天一道面试题-CPU伪共享

    前言:了不起:又到了每天一到面试题的时候了!学弟,最近学习的怎么样啊 了不起学弟:最近学习的还不错,每天都在学习,每天都在进步! 了不起:那你最近学习的什么呢? 了不起学弟:最近在学习C
  • iQOO 11S评测:行业唯一的200W标准版旗舰

    【Techweb评测】去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,该机不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞
  • 荣耀Magic4 至臻版 首创智慧隐私通话 强劲影音系统

    2022年第一季度临近尾声,在该季度内,许多品牌陆续发布自己的最新产品,让大家从全新的角度来了解当今的手机技术。手机是电子设备中,更新迭代十分迅速的一款产品,基
Top