当前位置：首页 > 元宇宙 > AI

英伟达 NVLM 1.0 引领多模态 AI 变革：媲美 GPT-4o，不牺牲性能平衡文本和图像处理难题

来源：责编：时间：2024-09-24 08:59:43 217观看

导读 9 月 21 日消息，科技媒体 marktechpost 昨日（9 月 20 日）发布博文，报道了英伟达（Nvidia）最新发布的论文，介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型（MLLM）多模态大型语言模型（MLLM）所创建的 AI 系统，能够

9 月 21 日消息，科技媒体 marktechpost 昨日（9 月 20 日）发布博文，报道了英伟达（Nvidia）最新发布的论文，介绍了多模态大语言模型系列 NVLM 1.0。

多模态大型语言模型（MLLM）

多模态大型语言模型（MLLM）所创建的 AI 系统，能够无缝解读文本和视觉数据等，弥合自然语言理解和视觉理解之间的差距，让机器能够连贯地处理从文本文档到图像等各种形式的输入。

多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景，改进人工智能整合和处理不同数据源的方式，帮助 AI 朝着更复杂的应用方向发展。

英伟达 NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三种主要架构。每个架构都结合先进的多模态推理功能与高效的文本处理功能，从而解决了以往方法的不足之处。

NVLM 1.0 的一个显著特点是在训练过程中加入了高质量纯文本监督微调（SFT）数据，这使得这些模型在视觉语言任务中表现出色的同时，还能保持甚至提高纯文本性能。

研究团队强调，他们的方法旨在超越 GPT-4V 等现有专有模型和 InternVL 等开放式替代模型。

NVLM 1.0 模型采用混合架构来平衡文本和图像处理：

NVLM-D：纯解码器模型，以统一的方式处理两种模式，因此特别擅长多模式推理任务。

NVLM-X：采用交叉注意机制，提高了处理高分辨率图像时的计算效率

NVLM-H：混合了上述两种架构的优势，在保持文本推理所需的效率的同时，实现了更详细的图像理解。

这些模型结合了高分辨率照片的动态平铺技术，在不牺牲推理能力的情况下显著提高了 OCR 相关任务的性能。

性能

在性能方面，NVLM 1.0 模型在多个基准测试中取得了令人印象深刻的成绩。

归功于在训练过程中集成了高质量的文本数据集，在 MATH 和 GSM8K 等纯文本任务中，NVLM-D1.0 72B 模型比其纯文本骨干提高了 4.3 分。

在视觉问题解答和推理任务中，这些模型还表现出了强大的视觉语言性能，在 VQAv2 数据集上的准确率为 93.6%，在 AI2D 上的准确率为 87.4%。

在 OCR 相关任务中，NVLM 模型的表现明显优于现有系统，在 DocVQA 和 ChartQA 数据集上的准确率分别为 87.4% 和 81.7%，突出显示了其处理复杂视觉信息的能力。

NVLM-X 和 NVLM-H 模型也取得了这些成绩，它们在处理高分辨率图像和多模态数据方面表现出色。

研究的主要发现之一是，NVLM 模型不仅在视觉语言任务中表现出色，而且还保持或提高了纯文本性能，这是其他多模态模型难以达到的。

例如，在基于文本的推理任务（如 MMLU）中，NVLM 模型保持了较高的准确率，在某些情况下甚至超过了纯文本模型。

想象一下在自动驾驶汽车中的应用场景。NVLM 1.0 可以通过摄像头实时获取道路信息，并与车辆导航系统进行语言沟通。

它不仅能识别交通标志，还能理解复杂路况下的人类指令，例如“如果前方有施工，请寻找替代路线”。这得益于其强大的视觉-语言处理能力以及出色的文本推理能力，使得自动驾驶更加智能、安全、可靠。

小结

英伟达开发的 NVLM 1.0 模型代表了多模态大型语言模型的重大突破，该模型通过在多模态训练中集成高质量文本数据集，并采用动态平铺和高分辨率图像平铺标记等创新架构设计，解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。

NVLM 系列模型不仅在视觉语言任务方面超越了领先的专有系统，而且还保持了卓越的纯文本推理能力，让多模态人工智能系统的发展又向前迈进一大步。

附上参考地址

This AI Paper by NVIDIA Introduces NVLM 1.0: A Family of Multimodal Large Language Models with Improved Text and Image Processing Capabilities

NVLM: Open Frontier-Class Multimodal LLMs

NVLM: Open Frontier-Class Multimodal LLMs Github

本文链接：http://www.28at.com/showinfo-45-7545-0.html英伟达 NVLM 1.0 引领多模态 AI 变革：媲美 GPT-4o，不牺牲性能平衡文本和图像处理难题

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： JetBrains联手阿里云，AI Assistant助力中国开发者飞跃新世代！

下一篇： OpenAI 笑傲 AI 江湖：新 50-70 亿美元融资将完成，估值有望破 1500 亿美元

标签：

热门焦点

拯救XR，苹果力不从心

来源 | 光子星球撰文 | 文烨豪编辑 | 吴先之苹果终于呈上了它的“答卷”。北京时间6月6日凌晨，苹果2023年全球开发者大会（WWDC）如期举行。作为苹果CEO库克口中&ld
【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

元宇宙的表现形式大多以游戏为起点，并逐渐整合互联网、数字化娱乐、社交网络等功能，长期来看甚至可以整合社会经济与商业活动。元宇宙的发展最关键的部分在于元
元宇宙时代NFT的价值衡量

有人认为NFT的高昂价格只是炒作的产物，并不具有其对等的价值，但其实NFT并不是空中楼阁，只是区块链数字分类账中的一种形式。诚然，目前的NFT仍处于灰色地带，相关的法
纽约街头出现NFT自动贩卖机

一家初创公司宣布在纽约市开放一台NFT自动售货机，允许任何人——即使是没有加密资产的人也能购买NFT。该交易平台名为Neon，上个月完成了一轮300万美元的种子募捐
用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

你可能听说过不可伪造的代币，或NFTs。NFTs是数字代币，代表完全独特的项目的所有权；存储在区块链中并可追踪，它们不能被修改、替换或复制。作为NFT铸造的资产在数字
以用户为中心，Web3和区块链如何将用户放在首位

竞争优势正在改变竞争优势是每个企业都在努力争取的，由谷歌、Facebook和Netflix等大型科技公司主导的市场中，两大重要类别的竞争优势十分突出。第一个竞争优势来
王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

今日《元宇宙新鲜事》有：王老吉启动元宇宙“吉空间”；HTC发布元宇宙应用VIVERSE；Meta将在马德里构建一个元宇宙创新中心；央视网《新闻+》推出系列视频《聊聊元宇宙
Meta 呼吁行业合作建立元宇宙网络基础设施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基础设施，以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一，这在很大程度上是由 Facebo
融资千万美元的元宇宙平台UGC到底是什么？

据获悉，全球化元宇宙社交平台BUD Technologies, Inc.（以下简称“BUD”）宣布完成1500万美元A+轮融资，本轮融资由启明创投领投，老股东源码资本、GGV纪源资本、云九资

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

英伟达 NVLM 1.0 引领多模态 AI 变革：媲美 GPT-4o，不牺牲性能平衡文本和图像处理难题

拯救XR，苹果力不从心

【东方证券】虚拟世界照进现实，元宇宙中有什么？ | 元宇宙Meta洞见

元宇宙时代NFT的价值衡量

纽约街头出现NFT自动贩卖机

用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

以用户为中心，Web3和区块链如何将用户放在首位

王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

Meta 呼吁行业合作建立元宇宙网络基础设施

融资千万美元的元宇宙平台UGC到底是什么？

最新推荐

关于年度热词NFT，除了钱，我们还可以聊点啥？

元宇宙时代NFT的价值衡量

好莱坞：一股新的电影制作加密浪潮将颠覆这个行业

数字经济、数据要素与数字治理

艺术创作者能否永久收取版税？

GameFi 深度解析，元宇宙内容雏形显现

猜你喜欢

热门推荐

相关资讯