当前位置:首页 > 元宇宙 > AI

华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

来源: 责编: 时间:2023-12-20 17:45:31 452观看
导读 12 月 14 日消息,据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲

12 月 14 日消息,据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。lNb28资讯网——每日最新资讯28at.com

lNb28资讯网——每日最新资讯28at.com

▲ 图源 Monkey 项目的 GitHub 页面

注:多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的 AI 架构。lNb28资讯网——每日最新资讯28at.com

据介绍,Monkey 模型在 18 个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外,Monkey 在文本密集的问答任务中显示出“显著的优势”,甚至在某些样本上超越了业界公认的领先者 ——OpenAI 的多模态大模型 GPT-4V。lNb28资讯网——每日最新资讯28at.com

lNb28资讯网——每日最新资讯28at.com

Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中,Monkey 展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中,Monkey 正确地将其识别为埃菲尔铁塔的绘画,并提供了构图和配色方案的详细描述。而对左下角的文字,只有 Monkey 和 GPT-4V 能将其准确地识别为作者名。lNb28资讯网——每日最新资讯28at.com

lNb28资讯网——每日最新资讯28at.com

Monkey 号称能够利用现有的工具构建一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,此举可以充分结合不同工具的特性,提升描述的准确性和丰富程度。lNb28资讯网——每日最新资讯28at.com

lNb28资讯网——每日最新资讯28at.com

“一个个工具就好比不同的零件,合理的排列组合才能使其发挥最大作用,”白翔教授说,“我们团队从 2003 年开始便从事图像识别研究,去年我们又从海外引进了专攻多模态大模型的青年人才,Monkey 的最终方案是大家一起反复讨论,尝试了 10 余种方案后最终确定的。”白翔教授说。lNb28资讯网——每日最新资讯28at.com

Monkey 的另一亮点是能够处理分辨率最高 1344×896 像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的 6 倍,这意味着 Monkey 能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。lNb28资讯网——每日最新资讯28at.com

Monkey多模态大模型代码目前已在 GitHub 开源,附开源地址:lNb28资讯网——每日最新资讯28at.com

https://github.com/Yuliang-Liu/MonkeylNb28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-2978-0.html华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 利用浏览器历史记录训练设备端 AI,Mozilla 公布 MemoryCache 项目

下一篇: 身边云荣膺第一资源“2023人力资源先锋服务机构”

标签:
  • 热门焦点
  • 搭上“谷爱凌”,“柳夜熙们”站上风口?

    作者:张琳 曹杨从“永不塌房”的艺人到频频亮相北京冬奥会,作为元宇宙细分赛道之一的虚拟数字人又火了一把。2月7日,即谷爱凌摘得冬奥会自由式滑雪大跳台金牌的
  • Meta元宇宙女性安全问题频发,元宇宙中相关问题该如何解决?

    在女性遭受性骚扰甚至被攻击的事件相继被报道之后,仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • 元宇宙社交啫喱、希壤爆款迭出,腾讯慌了吗?

    文 | 陈桥辉没想到腾讯超级QQ秀的20周年归来首秀,被一款名不见经传的产品抢了风头。1月15日,一款名为“啫喱”的社交App迅速在各个互联网的社交圈内火爆起来,引起
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • 「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • 扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

    前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo,该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 初探元宇宙

    2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中,被称为“元宇宙”第一股后,Facebook更名为Meta, 引发全球范围内
Top