当前位置:首页 > 元宇宙 > AI

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

来源: 责编: 时间:2024-11-01 09:38:39 180观看
导读 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结

10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。YiA28资讯网——每日最新资讯28at.com

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。YiA28资讯网——每日最新资讯28at.com

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。YiA28资讯网——每日最新资讯28at.com

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。YiA28资讯网——每日最新资讯28at.com

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。YiA28资讯网——每日最新资讯28at.com

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

YiA28资讯网——每日最新资讯28at.com

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。YiA28资讯网——每日最新资讯28at.com

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。YiA28资讯网——每日最新资讯28at.com

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。YiA28资讯网——每日最新资讯28at.com

附上参考地址YiA28资讯网——每日最新资讯28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured ElementsYiA28资讯网——每日最新资讯28at.com

Microsoft’s New vision based GUI agent — OmniParserYiA28资讯网——每日最新资讯28at.com

OmniParser for Pure Vision Based GUI AgentYiA28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9349-0.html微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

下一篇: GLM-4-Plus赋能“阅读智能体”,效率飙升300%?

标签:
  • 热门焦点
  • ChatGPT访问量增速下滑,AI真的是一场泡沫吗?

    来源:首席商业评论2023年,最火的莫过于ChatGPT,席卷全球的同时也引发了生成式AI(人工智能)的投资热潮。在美股,ChatGPT相关概念股飙涨,以AI算力龙头英伟达为例,其股价年内一度累计上
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 这一超级富豪“逆袭”,身价大增4330亿

    来源:侃见财经互联网的突围没有“终点”。在快节奏的商业环境下,不断的试错成了互联网企业的标配,一年一个风口,一个风口造就一个热点,但是回头来看,最终受益的还是身处
  • 虚拟人再升级,企业可以解放双手了?

    来源:伯虎财经今天想跟大家来唠唠AI,其实聊到这个话题很多人都不陌生了。在ChatGPT和AIGC大热背后,还有一位低调的“大佬”——虚拟人。比如咱们熟知的虚
  • 元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • “平均时代”:ChatGPT模仿秀的隐喻

    来源:锦缎如果你问ChatGPT,Instagram上最美的女人是谁?它很可能会给你一个名字,叫卡戴珊。如果你观察过Instagram这个美版小红书:平台上的所有网红,展现的几乎是统一面孔:统一的医
  • 字节、腾讯、网易鏖战元宇宙背后,大厂究竟在争夺什么?

    正当互联网商业踌躇不前,互联网大厂为了在存量中的增长挤破头皮之时,元宇宙的概念被资本点燃。先是Facebook更名Meta正式进军元宇宙,然后字节跳动收购了一家VR硬
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 知识产权可能在元宇宙中“消失”?

    开篇老雅痞先来划重点:一些公司开始采取积极的方式来保护他们在元宇宙的知识产权。耐克、爱马仕和米拉麦克斯最近提起诉讼,声称NFT侵犯了他们的知识产权。Inside
Top