当前位置:首页 > 元宇宙 > AI

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

来源: 责编: 时间:2024-09-05 08:57:24 31观看
导读 9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。据阿里云官方介绍,

9 月 2 日消息,阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL,并推出 2B、7B 两个尺寸及其量化版本模型。同时,旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可直接调用。8BU28资讯网——每日最新资讯28at.com

8BU28资讯网——每日最新资讯28at.com

8BU28资讯网——每日最新资讯28at.com

据阿里云官方介绍,相比上代模型,Qwen2-VL 的基础性能全面提升:8BU28资讯网——每日最新资讯28at.com

读懂不同分辨率和不同长宽比的图片,在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;8BU28资讯网——每日最新资讯28at.com

理解 20 分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;8BU28资讯网——每日最新资讯28at.com

具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;8BU28资讯网——每日最新资讯28at.com

理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。8BU28资讯网——每日最新资讯28at.com

8BU28资讯网——每日最新资讯28at.com

8BU28资讯网——每日最新资讯28at.com

8BU28资讯网——每日最新资讯28at.com

Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构,三个尺寸的模型都采用了 600M 规模大小的 ViT,支持图像和视频统一输入。8BU28资讯网——每日最新资讯28at.com

但为了让模型能够更清楚地感知视觉信息和理解视频,团队在架构上进行了一些升级:8BU28资讯网——每日最新资讯28at.com

一是实现了对原生动态分辨率的全面支持。不同于上代模型,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片将被转换为动态数量的 tokens,最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式,确保了模型输入与图像原始信息之间的高度一致性,赋予模型处理任意尺寸图像的强大能力,使得其可以更灵活高效地进行图像处理。8BU28资讯网——每日最新资讯28at.com

8BU28资讯网——每日最新资讯28at.com

二是使用了多模态旋转位置嵌入(M-ROPE)方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息,M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,赋予了语言模型强大的多模态处理和推理能力,能让模型更好地理解和建模复杂的多模态数据。8BU28资讯网——每日最新资讯28at.com

8BU28资讯网——每日最新资讯28at.com

此次 Qwen2-VL 开源的多款模型中的旗舰模型Qwen2-VL-72B 的 API 已上线阿里云百炼平台,用户可通过阿里云百炼平台直接调用 API。8BU28资讯网——每日最新资讯28at.com

同时,通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B,开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型,也可通过通义官网、通义 App 的主对话页面使用模型,附地址如下:8BU28资讯网——每日最新资讯28at.com

阿里云百炼平台:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api8BU28资讯网——每日最新资讯28at.com

GitHub:https://github.com/QwenLM/Qwen2-VL8BU28资讯网——每日最新资讯28at.com

HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d8BU28资讯网——每日最新资讯28at.com

魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model8BU28资讯网——每日最新资讯28at.com

模型体验:https://huggingface.co/spaces/Qwen/Qwen2-VL8BU28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6703-0.html阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 清华系 AI 公司无问芯穹完成近 5 亿元 A 轮融资,投资方含联想创投、小米等

下一篇: 谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

标签:
  • 热门焦点
  • AI网红能年赚百万,普通人的新机会来了?

    AI网红能年赚百万,普通人的新机会来了?

    来源|运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁2023 年 ,数字人成为了当红的“流量话题”和“商业机会"。不管是 AI 孙燕姿走红网络,还是 AI 数字
  • 数字虚拟人23年最新变化!

    数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 完美世界被元宇宙“拒之门外”

    完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    字节觅《原神》,腾讯元宇宙,游戏新王战旧神?

    文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词,“得不到的永远在骚动”,这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起,使得头部游戏大厂感受
  • 摩根大通:元宇宙市场预计每年收入超1万亿美元

    摩根大通:元宇宙市场预计每年收入超1万亿美元

    今日《元宇宙新鲜事》有:香港首届元宇宙艺博会将于5月举办;NH-Amundi Asset Management上市其第二支元宇宙ETF;Meta虚拟现实平台Horizon Worlds月活跃用户在三个
  • 过去女性在互联网领域是半边天,在Web3,将会是整片天!

    过去女性在互联网领域是半边天,在Web3,将会是整片天!

    Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中,如果女性在创造性方面发挥更大的作用,可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
  • 下一个黄金赛道?NFT的碎片化!

    下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 融资千万美元的元宇宙平台UGC到底是什么?

    融资千万美元的元宇宙平台UGC到底是什么?

    据获悉,全球化元宇宙社交平台BUD Technologies, Inc.(以下简称“BUD”)宣布完成1500万美元A+轮融资,本轮融资由启明创投领投,老股东源码资本、GGV纪源资本、云九资
  • TX加入的NFT数字收藏品,元宇宙的破圈之路?

    TX加入的NFT数字收藏品,元宇宙的破圈之路?

    3月7日,澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资,腾讯参投。想必国人最熟知的应该就是TX,作为国内四大互联网
Top