当前位置:首页 > 元宇宙 > AI

阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

来源: 责编: 时间:2025-01-31 10:30:12 199观看
导读 1 月 28 日消息,阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。附 Qwen2.5-VL 的主要特点如下:视觉理解:Qwen2.5-VL

1 月 28 日消息,阿里通义千问官方今日发文宣布,开源全新的视觉理解模型 Qwen2.5-VL——Qwen 模型家族的旗舰视觉语言模型,推出了 3B、7B 和 72B 三个尺寸版本。MNa28资讯网——每日最新资讯28at.com

MNa28资讯网——每日最新资讯28at.com

附 Qwen2.5-VL 的主要特点如下:MNa28资讯网——每日最新资讯28at.com

视觉理解:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。MNa28资讯网——每日最新资讯28at.com

代理:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。MNa28资讯网——每日最新资讯28at.com

理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。MNa28资讯网——每日最新资讯28at.com

视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。MNa28资讯网——每日最新资讯28at.com

结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。MNa28资讯网——每日最新资讯28at.com

据官方介绍,在旗舰模型 Qwen2.5-VL-72B-Instruct 的测试中,它在一系列涵盖多个领域和任务的基准测试中表现出色,包括大学水平的问题、数学、文档理解、视觉问答、视频理解和视觉 Agent。Qwen2.5-VL 在理解文档和图表方面具有优势,并且能够作为视觉 Agent 进行操作,而无需特定任务的微调。MNa28资讯网——每日最新资讯28at.com

MNa28资讯网——每日最新资讯28at.com

另外,在较小的模型方面,Qwen2.5-VL-7B-Instruct 在多个任务中超越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,超越了之前版本 Qwen2-VL 的 7B 模型。MNa28资讯网——每日最新资讯28at.com

MNa28资讯网——每日最新资讯28at.com

MNa28资讯网——每日最新资讯28at.com

阿里通义千问官方表示,与 Qwen2-VL 相比,Qwen2.5-VL 增强了模型对时间和空间尺度的感知能力,并进一步简化了网络结构以提高模型效率。后续将进一步提升模型的问题解决和推理能力,同时整合更多模态,使模型变得更加智能,并向能够处理多种输入类型和任务的综合全能模型迈进。MNa28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10327-0.html阿里通义千问全新视觉理解模型 Qwen2.5-VL 开源:三尺寸版本、支持理解长视频和捕捉事件等能力

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

下一篇: DeepSeek 应用在意大利应用商店下架,此前曾被该国隐私监管机构盯上

标签:
  • 热门焦点
  • 这一超级富豪“逆袭”,身价大增4330亿

    来源:侃见财经互联网的突围没有“终点”。在快节奏的商业环境下,不断的试错成了互联网企业的标配,一年一个风口,一个风口造就一个热点,但是回头来看,最终受益的还是身处
  • 人间诚实周鸿祎:360 All in 大模型的六个解读

    主笔 / 村口有牛文章架构师 / 毛自聪出品 / 巨头财经5月至今,人间躁动,各路大模型你方唱罢我登场,VC圈互联网圈媒体圈已近癫狂。谁也没想到,今日,360再度刷屏,老牌互联网巨头展现
  • 元宇宙带来沉浸式智能登录?你学会了吗?

    备受资本市场宠爱的元宇宙概念,正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态,与沉浸式体验紧密相关。 多重路径,打造无感知沉浸式智能登录《设计
  • 有人狂赚千倍,资金盘游戏日进上亿,元宇宙泡沫还能吹多久?

    你还不知道元宇宙?没关系。看看微软、Meta、英伟达的雄心壮志,便可领略元宇宙的辽阔。1月18日,微软宣布将以687亿美元收购动视暴雪,这是有史以来互联网领域最大的
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • 米哈游推出元宇宙品牌;VR/AR老牌企业当红齐天完成B轮+融资

    今日热点:苹果AR/VR头显的FaceTime或基于Memojis和SharePlay构建而成;VR/AR老牌企业当红齐天完成B轮+融资;米哈游推出元宇宙品牌HoYoverse;国产VR射击游戏《Contra
  • 冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • 以太坊伦敦升级后,随之生效的以太坊EIP-1559是什么?

    作者:三黎过去的一年里,除了 BTC 一如既往稳坐王位,DEFI 则是贯穿一整年的狂欢热点。 DeFi 在让 ETH 实现价值增长的同时,也使得其网络日渐拥堵、交易费用增高,成为
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
Top