当前位置:首页 > 科技  > 手机

苹果论文展示Ferret-UI大语言模型:可深度理解屏幕信息内容

来源: 责编: 时间:2024-04-11 08:58:24 255观看
导读 近日,苹果发布研究论文,展示了名叫“Ferret-UI”的多模态大语言模型。根据论文介绍,Ferret-UI模型针对目前MLLMs模型(多模态大语言模型)无法有效理解移动应用程序在屏幕上显示的内容这一问题,做出了针对性的调整。为了训练

近日,苹果发布研究论文,展示了名叫“Ferret-UI”的多模态大语言模型。Xob28资讯网——每日最新资讯28at.com

Xob28资讯网——每日最新资讯28at.com

根据论文介绍,Ferret-UI模型针对目前MLLMs模型(多模态大语言模型)无法有效理解移动应用程序在屏幕上显示的内容这一问题,做出了针对性的调整。Xob28资讯网——每日最新资讯28at.com

为了训练Ferret-UI,苹果收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。Xob28资讯网——每日最新资讯28at.com

这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。Xob28资讯网——每日最新资讯28at.com

同时,为了增强模型的推理能力,苹果进一步编制了高级任务数据集,包括详细描述、感知/交互对话和功能推理。Xob28资讯网——每日最新资讯28at.com

这使得Ferret-UI相较目前的GPT-4V等MLLMs模型,在理解应用程序在屏幕上显示的内容时,有着显著的优势。Xob28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-22-82548-0.html苹果论文展示Ferret-UI大语言模型:可深度理解屏幕信息内容

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 用户反馈佩戴Vision Pro后出现健康问题:头痛、颈部酸痛等

下一篇: 2024中国边缘计算20强重磅发布!华为第一

标签:
  • 热门焦点
Top