当前位置:首页 > 元宇宙 > AI

苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

来源: 责编: 时间:2024-04-11 17:24:58 309观看
导读 4 月 10 日消息,苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以理解应用程序屏幕上的内容。以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频

4 月 10 日消息,苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以理解应用程序屏幕上的内容。3YS28资讯网——每日最新资讯28at.com

3YS28资讯网——每日最新资讯28at.com

以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容,多模态大语言模型(MLLMs)因此孕育而生。3YS28资讯网——每日最新资讯28at.com

只是现阶段 MLLMs 还无法有效理解移动应用程序,这主要有以下几个原因:3YS28资讯网——每日最新资讯28at.com

1. 手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。3YS28资讯网——每日最新资讯28at.com

2. MLLMs 需要识别出图标和按钮,但它们相对来说都比较小。3YS28资讯网——每日最新资讯28at.com

因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题:3YS28资讯网——每日最新资讯28at.com

与自然图像相比,用户界面屏幕的长宽比通常更长,包含的关注对象(如图标、文本)也更小,因此我们在 Ferret 的基础上加入了 "任意分辨率",以放大细节并利用增强的视觉功能。3YS28资讯网——每日最新资讯28at.com

我们精心收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。3YS28资讯网——每日最新资讯28at.com

为了增强模型的推理能力,我们进一步编制了高级任务数据集,包括详细描述、感知 / 交互对话和功能推理。3YS28资讯网——每日最新资讯28at.com

苹果在论文中表示相比较现有的 GPT-4V,以及其它 MLLMs 模型,Ferret-UI AI 模型更为优秀。3YS28资讯网——每日最新资讯28at.com

3YS28资讯网——每日最新资讯28at.com

3YS28资讯网——每日最新资讯28at.com

3YS28资讯网——每日最新资讯28at.com

3YS28资讯网——每日最新资讯28at.com

3YS28资讯网——每日最新资讯28at.com

附上参考地址3YS28资讯网——每日最新资讯28at.com

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs3YS28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3949-0.html苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI推出视觉增强版GPT-4 Turbo模型,简化开发流程

下一篇: 融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision

标签:
  • 热门焦点
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 超级碗的加密时刻:是主流信号还是“网络超级碗2.0”?

    2 月 13 日,美东时间 18:30,有着“美国春晚”之誉的超级碗(Super Bowl)落下帷幕。超级碗是美国国家美式足球联盟(也称为国家橄榄球联盟)的年度冠军赛,胜者将成为“世
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • 8个最适合艺术家发行NFT的交易市场

    近年来,加密风靡全球。加密圈最令人兴奋的方面之一是它能够用于创建称为NFT 的数字资产。从 CyberKitties 到 Cyber Galleries,NFT 已成为艺术家和艺术鉴赏家的
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • 扎克伯格演示了一种“造物主”式的元宇宙语音机器人工具

    前身为Facebook的Meta公司今天展示了一个人工智能系统的Demo,该系统使人们能够通过语音命令生成或导入虚拟世界中的事物。该公司认为这个被称为 "Builder Bot "
  • 元宇宙收割了谁

    作者:晓宇资本将元宇宙看作下一代互联网的门票,画大饼、割韭菜就成了一大选项。2021年被称为元宇宙元年。在这一年里,先是号称元宇宙第一股的沙盒游戏Roblox盛装
  • 虚拟人的3大纪律和6种品牌孵化模式

    作者:陈格雷(老小格)及团队虚拟人很热,我们最近广泛收集和研究了、各种消费品牌企业在虚拟人开发上的一些主要特点,整理出6种最主要的品牌虚拟人模式,后面一一介绍。
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
Top