当前位置:首页 > 元宇宙 > AI

微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

来源: 责编: 时间:2024-11-01 09:38:39 198观看
导读 10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结

10 月 29 日消息,科技媒体 marktechpost 于 10 月 24 日发布博文,报道称微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的AI 工具。6gM28资讯网——每日最新资讯28at.com

项目背景

传统的自动化方法通常依赖于解析 HTML 或视图层次结构,从而限制了其在非网络环境中的适用性。6gM28资讯网——每日最新资讯28at.com

而包括 GPT-4V 在内的现有的视觉语言模型(VLMs),并不擅长解读复杂 GUI 元素,导致动作定位不准确。6gM28资讯网——每日最新资讯28at.com

项目简介

微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。6gM28资讯网——每日最新资讯28at.com

OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备和网页等上跨平台工作,提高用户界面的解析准确性。6gM28资讯网——每日最新资讯28at.com

OmniParser 除了识别屏幕上的元素,还能将这些元素转换成结构化的数据。6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

测试表现

OmniParser 在多个基准测试中显示出优越的性能。例如,在 ScreenSpot 数据集中,其准确率提高了 73%,显著超越依赖 HTML 解析的模型。6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

6gM28资讯网——每日最新资讯28at.com

这一设计不仅能生成类似文档对象模型(DOM)的结构化表示,还能通过叠加边界框和功能标签来引导语言模型做出更准确的用户动作预测。6gM28资讯网——每日最新资讯28at.com

同时,GPT-4V 在使用 OmniParser 输出后,图标的正确标记率从 70.5% 提升至 93.8%。这些改进表明,OmniParser 能够有效解决当前 GUI 交互模型的根本缺陷。6gM28资讯网——每日最新资讯28at.com

OmniParser 的发布不仅拓宽了智能体的应用范围,也为开发者提供了一个强大的工具,助力创建更智能、更高效的用户界面驱动智能体。微软目前已在 Hugging Face 上发布 OmniParser,普及这一前沿技术,将进一步推动多模态 AI 的发展,特别是在无障碍、自动化和智能用户辅助等领域。6gM28资讯网——每日最新资讯28at.com

附上参考地址6gM28资讯网——每日最新资讯28at.com

Microsoft AI Releases OmniParser Model on HuggingFace: A Compact Screen Parsing Module that can Convert UI Screenshots into Structured Elements6gM28资讯网——每日最新资讯28at.com

Microsoft’s New vision based GUI agent — OmniParser6gM28资讯网——每日最新资讯28at.com

OmniParser for Pure Vision Based GUI Agent6gM28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9349-0.html微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 电脑

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等

下一篇: GLM-4-Plus赋能“阅读智能体”,效率飙升300%?

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • 如何对一款 NFT 项目进行价值评估?

    原文作者 | Othmane Senhaji Rhazi,Web 3 企业家.编译整理 | 黑米@白泽研究院我之所以成为一位大力倡导 Web3 和 NFT 领域的企业家,因为我相信我们正在见证社会
  • 餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
  • 重温 1602 年:DAO 是新的企业范式吗?

    作者:Andrew Singer“ 将你的选票委托给行业有能力的专家,将使所有者在这些公司的管理中拥有更强大、更清晰的话语权 。”1602 年,荷兰东印度公司成立,许多人认为
  • 数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • 你连元宇宙都不知道吗?快来看看这四本元宇宙书籍吧

    前有腾讯、阿里申请商标注册,后有Facebook宣布改名,若论当前互联网最火最热的概念,当属“元宇宙”。“阿里元宇宙”“淘宝元宇宙”“钉钉元宇宙”“QQ元宇宙”“
  • 超级账本Julian Gordon:联盟链与公链的竞争不是非此即彼

    在2021年《福布斯》区块链50强榜单中,29家企业使用Hyperledger超级账本技术,占比近60%。同年,研究机构Blockdata发布了的调查报告显示,访问Top100上市公司中,有 81
Top