当前位置:首页 > 元宇宙 > AI

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

来源: 责编: 时间:2024-09-05 08:57:24 230观看
导读 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。据阿里云官方介绍,

9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。FOL28资讯网——每日最新资讯28at.com

FOL28资讯网——每日最新资讯28at.com

FOL28资讯网——每日最新资讯28at.com

据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:FOL28资讯网——每日最新资讯28at.com

读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;FOL28资讯网——每日最新资讯28at.com

理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;FOL28资讯网——每日最新资讯28at.com

具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;FOL28资讯网——每日最新资讯28at.com

理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。FOL28资讯网——每日最新资讯28at.com

FOL28资讯网——每日最新资讯28at.com

FOL28资讯网——每日最新资讯28at.com

FOL28资讯网——每日最新资讯28at.com

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。FOL28资讯网——每日最新资讯28at.com

但为了让模型能够更清楚地感知视觉信息和理解视频,团队在架构上进行了一些升级:FOL28资讯网——每日最新资讯28at.com

一是实现了对原生动态分辨率的全面支持。不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片将被转换为动态数量的 tokens,最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式,确保了模型输入与图像原始信息之间的高度一致性,赋予模型处理任意尺寸图像的强大能力,使得其可以更灵活高效地进行图像处理。FOL28资讯网——每日最新资讯28at.com

FOL28资讯网——每日最新资讯28at.com

二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。FOL28资讯网——每日最新资讯28at.com

FOL28资讯网——每日最新资讯28at.com

此次 Qwen2-VL 开源的多款模型中的旗舰模型Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可通过阿里云百炼平台直接调用 API。FOL28资讯网——每日最新资讯28at.com

同时,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 App 的主对话页面使用模型,附地址如下:FOL28资讯网——每日最新资讯28at.com

阿里云百炼平台:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-apiFOL28资讯网——每日最新资讯28at.com

GitHub:https://github.com/QwenLM/Qwen2-VLFOL28资讯网——每日最新资讯28at.com

HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800dFOL28资讯网——每日最新资讯28at.com

魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=modelFOL28资讯网——每日最新资讯28at.com

模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VLFOL28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6703-0.html阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 清华系 AI 公司无问芯穹完成近 5 亿元 A 轮融资,投资方含联想创投、小米等

下一篇: 谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

标签:
  • 热门焦点
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 韩国主权基金增加对硅谷初创公司投资 押注元宇宙和人工智能

    韩国投资公司(KIC)CEO Seoungho Jin预计,该公司在旧金山的办事处今年将扩招人手,探索在硅谷投资科技、健康和绿色项目。规模高达2000亿美元的韩国主权财富基金—
  • 冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • Meta展示AI系统Builder Bot;《Pistol Whip》增加派对模式

    今日热点:Meta展示AI系统Builder Bot;招聘信息显示Meta正在探索具有蜂窝连接功能的VR/AR头显;英国VR工作室Coatsink Games正在为PSVR 2开发新游戏;VR节奏射击游戏
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • Ceramic:为Web3.0社交应用打造的中间件

    大家关注老雅痞公众号这么久,对Web3的概念不陌生吧?让我们做一个简短的回顾,Web3主要被描述为去中心化的网络,旨在实现无服务器、去中心化的互联网,即用户掌握自己
  • 虚拟人行业研究报告

    最早的虚拟人出现于 20 世纪 80 年代,受限于技术,当时的虚拟人制作以手绘为主。21 世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及
Top