当前位置:首页 > 科技  > 网络

限时免费!通义千问多模态大模型重磅升级:性能赶超GPT-4V和谷歌Gemini

来源: 责编: 时间:2024-01-26 17:04:51 155观看
导读 快科技1月26日消息,今日,阿里云公布多模态大模型研究进展。据悉,通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题

快科技1月26日消息,今日,阿里云公布多模态大模型研究进展。vTt28资讯网——每日最新资讯28at.com

据悉,通义千问视觉理解模型Qwen-VL再次升级,继Plus版本之后,再次推出Max版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,整体性能堪比GPT-4V和Gemini Ultra。vTt28资讯网——每日最新资讯28at.com

限时免费!通义千问多模态大模型重磅升级:性能赶超GPT-4V和谷歌GeminivTt28资讯网——每日最新资讯28at.com

Qwen-VL-Plus和Qwen-VL-Max在MMMU、MathVista等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到世界佳水平。vTt28资讯网——每日最新资讯28at.com

基础能力方面,升级版模型能够准确描述和识别图片信息,并且根据图片进行信息推理、扩展创作;具备视觉定位能力,还可针对画面指定区域进行问答。vTt28资讯网——每日最新资讯28at.com

视觉推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程图等复杂形式图片,可以分析复杂图标,看图做题、看图作文、看图写代码也不在话下。vTt28资讯网——每日最新资讯28at.com

限时免费!通义千问多模态大模型重磅升级:性能赶超GPT-4V和谷歌GeminiQwen-VL-Max看图做题vTt28资讯网——每日最新资讯28at.com

图像文本处理方面,升级版Qwen-VL的中英文文本识别能力显著提高,支持百万像素以上的高清分辨率图和极端宽高比的图像,既能完整复现密集文本,也能从表格和文档中提取信息。vTt28资讯网——每日最新资讯28at.com

限时免费!通义千问多模态大模型重磅升级:性能赶超GPT-4V和谷歌GeminiQwen-VL-Max复现密集文本vTt28资讯网——每日最新资讯28at.com

LLM(大语言模型)之后,大模型领域的下一个爆点是什么?多模态是当前具共识的方向。过去半年来,OpenAI、谷歌等争相推出多模态模型,阿里云也在2023年8月发布并开源具备图文理解能力的Qwen-VL模型,Qwen-VL取得了同期远超同等规模通用模型的表现。vTt28资讯网——每日最新资讯28at.com

视觉是多模态能力中重要的模态,作为人类感知世界、认知世界的第一感官,视觉传递的信息占据了“五感”信息的80%。通义千问视觉语言模型基于通义千问LLM开发,通过将视觉表示学习模型与LLM对齐,赋予AI理解视觉信息的能力,在大语言模型的“心灵”上开了一扇视觉的“窗”。vTt28资讯网——每日最新资讯28at.com

相比LLM,多模态大模型拥有更大的应用想象力。比如,有研究者在探索将多模态大模型与自动驾驶场景结合,为“完全自动驾驶”找到新的技术路径;将多模态模型部署到手机、机器人、智能音箱等端侧设备,让智能设备自动理解物理世界的信息;或者基于多模态模型开发应用,辅助视力障碍群体的日常生活等等。vTt28资讯网——每日最新资讯28at.com

目前,Qwen-VL-Plus和Qwen-VL-Max限时免费,用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。vTt28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-17-68940-0.html限时免费!通义千问多模态大模型重磅升级:性能赶超GPT-4V和谷歌Gemini

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软的2.5倍:苹果公司人均创收达1680万元!

下一篇: 销量领跑!vivo夺得2023年中国手机市场国产品牌第一

标签:
  • 热门焦点
  • 俄罗斯:将审查iPhone等外国公司设备 保数据安全

    俄罗斯:将审查iPhone等外国公司设备 保数据安全

    iPhone和特斯拉都属于在各自领域领头羊的品牌,推出的产品也也都是数一数二的,但对于一些国家而言,它们的产品可靠性和安全性还是在限制范围内。近日,俄罗斯联邦通信、信息技术
  • Raft算法:保障分布式系统共识的稳健之道

    Raft算法:保障分布式系统共识的稳健之道

    1. 什么是Raft算法?Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”(“可靠、可复制、可冗余、可容错”)的首字母缩写。Raft算法是一种用于在分布式系统
  • 十个简单但很有用的Python装饰器

    十个简单但很有用的Python装饰器

    装饰器(Decorators)是Python中一种强大而灵活的功能,用于修改或增强函数或类的行为。装饰器本质上是一个函数,它接受另一个函数或类作为参数,并返回一个新的函数或类。它们通常用
  • 一个注解实现接口幂等,这样才优雅!

    一个注解实现接口幂等,这样才优雅!

    场景码猿慢病云管理系统中其实高并发的场景不是很多,没有必要每个接口都去考虑并发高的场景,比如添加住院患者的这个接口,具体的业务代码就不贴了,业务伪代码如下:图片上述代码有
  • 当家的盒马,加速谋生

    当家的盒马,加速谋生

    来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马,开始加速谋生了。据盒马官微消息,盒马计划今年开放生鲜供应链,将其生鲜商品送往食堂。目前,盒马在上海已经与
  • 小米MIX Fold 3下月亮相:今年唯一无短板的全能折叠屏

    小米MIX Fold 3下月亮相:今年唯一无短板的全能折叠屏

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都有新的进展,其中荣耀、三星都已陆续发布了最新的折叠屏旗舰,尤其号荣耀Magi
  • 8月见!小米MIX Fold 3获得3C认证:支持67W快充

    8月见!小米MIX Fold 3获得3C认证:支持67W快充

    这段时间以来,包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料,而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
  • iQOO Neo8 Pro评测:旗舰双芯加持 最强性能游戏旗舰

    iQOO Neo8 Pro评测:旗舰双芯加持 最强性能游戏旗舰

    【Techweb评测】去年10月,iQOO推出了一款Neo7手机,该机搭载了联发科天玑9000+,配备独显芯片Pro+,带来了同价位段最佳的游戏体验,一经上市便受到了诸多用
  • iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    去年10月,iQOO推出了iQOO Neo7系列机型,不仅搭载了天玑9000+,而且是同价位唯一一款天玑9000+直屏旗舰,一经上市便受到了用户的广泛关注。在时隔半年后,
Top