当前位置:首页 > 元宇宙 > AI

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

来源: 责编: 时间:2024-09-05 08:57:24 228观看
导读 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。据阿里云官方介绍,

9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。pLo28资讯网——每日最新资讯28at.com

pLo28资讯网——每日最新资讯28at.com

pLo28资讯网——每日最新资讯28at.com

据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:pLo28资讯网——每日最新资讯28at.com

读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;pLo28资讯网——每日最新资讯28at.com

理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;pLo28资讯网——每日最新资讯28at.com

具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;pLo28资讯网——每日最新资讯28at.com

理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。pLo28资讯网——每日最新资讯28at.com

pLo28资讯网——每日最新资讯28at.com

pLo28资讯网——每日最新资讯28at.com

pLo28资讯网——每日最新资讯28at.com

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。pLo28资讯网——每日最新资讯28at.com

但为了让模型能够更清楚地感知视觉信息和理解视频,团队在架构上进行了一些升级:pLo28资讯网——每日最新资讯28at.com

一是实现了对原生动态分辨率的全面支持。不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片将被转换为动态数量的 tokens,最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式,确保了模型输入与图像原始信息之间的高度一致性,赋予模型处理任意尺寸图像的强大能力,使得其可以更灵活高效地进行图像处理。pLo28资讯网——每日最新资讯28at.com

pLo28资讯网——每日最新资讯28at.com

二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。pLo28资讯网——每日最新资讯28at.com

pLo28资讯网——每日最新资讯28at.com

此次 Qwen2-VL 开源的多款模型中的旗舰模型Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可通过阿里云百炼平台直接调用 API。pLo28资讯网——每日最新资讯28at.com

同时,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 App 的主对话页面使用模型,附地址如下:pLo28资讯网——每日最新资讯28at.com

阿里云百炼平台:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-apipLo28资讯网——每日最新资讯28at.com

GitHub:https://github.com/QwenLM/Qwen2-VLpLo28资讯网——每日最新资讯28at.com

HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800dpLo28资讯网——每日最新资讯28at.com

魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=modelpLo28资讯网——每日最新资讯28at.com

模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VLpLo28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6703-0.html阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 清华系 AI 公司无问芯穹完成近 5 亿元 A 轮融资,投资方含联想创投、小米等

下一篇: 谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

标签:
  • 热门焦点
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 区块链产业人才发展报告

    工业和信息化部作为工业和信息化行业主管部门,正在着力推进“两个强国”建设,加快推动以区块链为代表的新兴技术与实体经济深度融合。我国区块链技术和应用想要
  • Meta、谷歌、微软竞相涌入元宇宙,小型企业该如何伺机而动?

    目前来看元宇宙不会影响到小型企业的发展,但在接下来的十年内可能会发生很多变化。很多有商业头脑的企业家都在密切关注着元宇宙的发展。元宇宙这个词,你一定或
  • 2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • NFT艺术家Hayley Rincon 专访:我的迷幻数字艺术之路

    Hayley Rincon是一位令人印象深刻才华横溢的创作者,她的作品呈现出迷幻的气息。今天就来聊聊她的艺术作品,和她自己的数字艺术之路。Hayley是加利福尼亚湾区的有
  • 解决NFT流动性问题:一文了解Floor DAO

    流动性是证券市场上的一个术语,流动性是指资产在不影响其市场价格的情况下可以转换为现成现金的效率,流动性最强的资产是现金本身。现在让我们试着从流动性的角
  • 元宇宙存在的意义和价值

    科技公司目前都在犹豫,看谁能在元宇宙上押下更大的赌注。然而,除了巨额的资金投入,到底要怎样才能获胜在很大程度上还没有得到证实。它是否仅仅是对当前数字景观
  • 利用元宇宙平台10天收入160万,风口还是虎口?

    美国Meta平台有限公司,也就是原来的脸书公司,9日宣布,公司旗下的虚拟现实应用《地平线世界》正式向美国和加拿大的18岁以上人群开放。这也是目前Meta推出的最具象
  • 浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top