当前位置：首页 > 元宇宙 > AI

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

来源：责编：时间：2024-09-05 08:57:24 273观看

导读 9 月 2 日消息，阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。据阿里云官方介绍，

9 月 2 日消息，阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。

据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：

读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；

理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；

具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；

理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构，三个尺寸的模型都采用了 600M 规模大小的 ViT，支持图像和视频统一输入。

但为了让模型能够更清楚地感知视觉信息和理解视频，团队在架构上进行了一些升级：

一是实现了对原生动态分辨率的全面支持。不同于上代模型，Qwen2-VL 能够处理任意分辨率的图像输入，不同大小图片将被转换为动态数量的 tokens，最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式，确保了模型输入与图像原始信息之间的高度一致性，赋予模型处理任意尺寸图像的强大能力，使得其可以更灵活高效地进行图像处理。

二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，赋予了语言模型强大的多模态处理和推理能力，能让模型更好地理解和建模复杂的多模态数据。

此次 Qwen2-VL 开源的多款模型中的旗舰模型Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可通过阿里云百炼平台直接调用 API。

同时，通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型，也可通过通义官网、通义 App 的主对话页面使用模型，附地址如下：

阿里云百炼平台：https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

GitHub：https://github.com/QwenLM/Qwen2-VL

HuggingFace：https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭 ModelScope：https://modelscope.cn/organization/qwen?tab=model

模型体验：https://huggingface.co/spaces/Qwen/Qwen2-VL

本文链接：http://www.28at.com/showinfo-45-6703-0.html阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：清华系 AI 公司无问芯穹完成近 5 亿元 A 轮融资，投资方含联想创投、小米等

下一篇：谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

标签：

热门焦点

元宇宙终究没火过两年

来源：传播体操在ChatGPT快速破圈的同时，元宇宙的热度却一泻千里。虽然互联网大厂们都没有否认元宇宙的长期想象力，但在行动上却都纷纷表示了对元宇宙短期前景的悲观。号称改变
AI界地震！美国对OpenAI展开调查！监管风暴来袭！

来源：清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗？那时的Sam Altman可谓意气风发，在耐心、友好的国会议员面前，就AI立法、大模型安全性问题侃侃而
虚拟人再升级，企业可以解放双手了？

来源：伯虎财经今天想跟大家来唠唠AI，其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后，还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
NFT的未来：传统企业与去中心化机构之间的竞赛

传统企业和去中心化机构一直存在分歧，但最近NFT的爆炸式增长让他们产生了共同的兴趣，双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问，NFT 市场正在增长。
元宇宙社交啫喱、希壤爆款迭出，腾讯慌了吗？

文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀，被一款名不见经传的产品抢了风头。1月15日，一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来，引起
从4个方面解析2022年加密行业趋势

作者：去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温，但关键瓶颈仍需解决。例如，以太坊作为DApp开发的顶级公链，仍然遭受网络拥塞和高额交
HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

今日热点：HTC Vive正式推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商北京蜂巢科技；面部追踪和眼动追踪是Quest下一版本的“重点”；索尼PSVR 2将推迟至2023
我们为什么需要Web3，距离Web3的实现还有多远？

当今技术正在经历着重要的变革，许多公司正在改变他们的经营模式以求变得更加的灵活，其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3，
PayPal CEO 的加密语录：加密货币将重新定义金融世界

PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头，已经允许美国和英国的用户交易或持有比特币（BTC）、以太坊（ETH）、比特现金（BCH

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

元宇宙终究没火过两年

AI界地震！美国对OpenAI展开调查！监管风暴来袭！

虚拟人再升级，企业可以解放双手了？

NFT的未来：传统企业与去中心化机构之间的竞赛

元宇宙社交啫喱、希壤爆款迭出，腾讯慌了吗？

从4个方面解析2022年加密行业趋势

HTC Vive推出元宇宙平台Viverse；腾讯投资小米生态链AR眼镜厂商

我们为什么需要Web3，距离Web3的实现还有多远？

PayPal CEO 的加密语录：加密货币将重新定义金融世界

最新推荐

上、中、下游加深融合，搭建元宇宙产业全景

在数字世界再造世界杯，元宇宙体育正变得越来越丰满

虚拟数字人：元宇宙的主角破圈而来

韩国建立元宇宙生态系统，智度股份发布元宇宙社区Meta彼岸

对讽刺无动于衷，Nori将碳市场放在区块链上

你连元宇宙都不知道吗？快来看看这四本元宇宙书籍吧

猜你喜欢

热门推荐

相关资讯