当前位置:首页 > 元宇宙 > AI

华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

来源: 责编: 时间:2023-12-20 17:45:31 435观看
导读 12 月 14 日消息,据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲

12 月 14 日消息,据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。BTq28资讯网——每日最新资讯28at.com

BTq28资讯网——每日最新资讯28at.com

▲ 图源 Monkey 项目的 GitHub 页面

注:多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的 AI 架构。BTq28资讯网——每日最新资讯28at.com

据介绍,Monkey 模型在 18 个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外,Monkey 在文本密集的问答任务中显示出“显著的优势”,甚至在某些样本上超越了业界公认的领先者 ——OpenAI 的多模态大模型 GPT-4V。BTq28资讯网——每日最新资讯28at.com

BTq28资讯网——每日最新资讯28at.com

Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中,Monkey 展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey 正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有 Monkey 和 GPT-4V 能将其准确地识别为作者名。BTq28资讯网——每日最新资讯28at.com

BTq28资讯网——每日最新资讯28at.com

Monkey 号称能够利用现有的工具构建一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,提升描述的准确性和丰富程度。BTq28资讯网——每日最新资讯28at.com

BTq28资讯网——每日最新资讯28at.com

“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从 2003 年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey 的最终方案是大家一起反复讨论,尝试了 10 余种方案后最终确定的。”白翔教授说。BTq28资讯网——每日最新资讯28at.com

Monkey 的另一亮点是能够处理分辨率最高 1344×896 像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的 6 倍,这意味着 Monkey 能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。BTq28资讯网——每日最新资讯28at.com

Monkey多模态大模型代码目前已在 GitHub 开源,附开源地址:BTq28资讯网——每日最新资讯28at.com

https://github.com/Yuliang-Liu/MonkeyBTq28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-2978-0.html华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 利用浏览器历史记录训练设备端 AI,Mozilla 公布 MemoryCache 项目

下一篇: 身边云荣膺第一资源“2023人力资源先锋服务机构”

标签:
  • 热门焦点
  • 元宇宙火热的当下,我们该如何“身临其境”的体验元宇宙?

    元宇宙的余热依然没有过去,甚至大有星星之火开启燎原之势,元宇宙本身也从殿堂走向了民间,我们可以看到一些企业开始了元宇宙的探索,诸如中国电信全资控股子公司天
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 万字专访Vitalik Buterin:以太坊将成为主流和最安全的基础层

    Vitalik Buterin 在 19 岁时撰写了以太坊白皮书。他的目标简单而全面,即创建一个“世界计算机”,旨在成为所有在线应用程序的灵活基础层,无需任何第三方。自 2015
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 元宇宙风归何处?

    元宇宙持续大火,在过去一段时间内,其屡次登上热点,吸引了一波又一波投资者。近期,在“2022中国·金鱼嘴元宇宙生态赋能大会”上,南京建邺区金鱼嘴基金街区宣布计划
  • a16z:元宇宙办公会取代实体办公室吗?

    6位不同的专家对未来的工作发表看法----元宇宙--沉浸式的、基于区块链的虚拟世界,大多数日常活动最终会在这里发生--但仍然只是一个概念。但它是一个拥有宝贵不
  • 用户可以把自己的医疗健康数据做成NFT出售给医药公司挣钱

    你可能听说过不可伪造的代币,或NFTs。NFTs是数字代币,代表完全独特的项目的所有权;存储在区块链中并可追踪,它们不能被修改、替换或复制。作为NFT铸造的资产在数字
  • 元宇宙需要的5个重要安全功能

    元宇宙的可能用途使其成为一个令人难以置信的概念,但是,就像科技界的任何事物一样,需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发,以保护用户
  • 新闻业在元宇宙的现状和未来

    “美联社有毛病吧,这真的过分了!”,一位媒体编辑在推特中愤怒地表示。这是针对一款视频NFT的批评言论之一,之后取消了此次销售,因为该视频呈现了移民穿越地中海的苦
Top