当前位置:首页 > 元宇宙 > AI

AI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

来源: 责编: 时间:2024-11-04 07:17:50 203观看
导读 AI 解放碳基生物双手,甚至能让你的手机自己玩自己!你没听错 —— 这其实就是移动任务自动化。在 AI 飞速发展下,这逐渐成为一个新兴的热门研究领域。移动任务自动化利用 AI 精准捕捉并解析人类意图,进而在移动设

AI 解放碳基生物双手,甚至能让你的手机自己玩自己!91b28资讯网——每日最新资讯28at.com

你没听错 —— 这其实就是移动任务自动化。91b28资讯网——每日最新资讯28at.com

在 AI 飞速发展下,这逐渐成为一个新兴的热门研究领域。91b28资讯网——每日最新资讯28at.com

移动任务自动化利用 AI 精准捕捉并解析人类意图,进而在移动设备(手机、平板电脑、车机终端)上高效执行多样化任务,为那些因认知局限、身体条件限制或身处特殊情境下的用户提供前所未有的便捷与支持。91b28资讯网——每日最新资讯28at.com

帮助视障人群用户完成导航、阅读或网上购物91b28资讯网——每日最新资讯28at.com

辅助老年人使用手机,跨越数字鸿沟91b28资讯网——每日最新资讯28at.com

帮助车主在驾驶过程中完成发送短信或调节车内环境91b28资讯网——每日最新资讯28at.com

替用户完成日常生活中普遍存在的重复性任务91b28资讯网——每日最新资讯28at.com

……91b28资讯网——每日最新资讯28at.com

妈妈再也不嫌重复设置多个日历事项会心烦了。91b28资讯网——每日最新资讯28at.com

最近,来自西安交通大学智能网络与网络安全教育部重点实验室(MOE KLINNS Lab)的蔡忠闽教授、宋云鹏副教授团队(团队主要研究方向为智能人机交互、混合增强智能、电力系统智能化等),基于团队最新 AI 研究成果,创新性提出了基于视觉的移动设备任务自动化方案 VisionTasker。91b28资讯网——每日最新资讯28at.com

这项研究不仅为普通用户提供了更智能的移动设备使用体验,也展现出了对特殊需求群体的关怀与赋能。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

基于视觉的移动设备任务自动化方案

团队提出了 VisionTasker,一个结合基于视觉的 UI 理解和 LLM 任务规划的两阶段框架,用于逐步实现移动任务自动化。91b28资讯网——每日最新资讯28at.com

该方案有效消除了表示 UI 对视图层次结构的依赖,提高了对不同应用界面的适应性。91b28资讯网——每日最新资讯28at.com

值得注意的是,利用 VisionTasker 无需大量数据训练大模型。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

VisionTasker 从用户以自然语言提出任务需求开始工作,Agent 开始理解并执行指令。91b28资讯网——每日最新资讯28at.com

具体实现如下:91b28资讯网——每日最新资讯28at.com

1、用户界面理解91b28资讯网——每日最新资讯28at.com

VisionTasker 通过视觉的方法做 UI 理解来解析和解释用户界面。91b28资讯网——每日最新资讯28at.com

首先 Agent 识别并分析用户界面上的元素及布局,如按钮、文本框、文字标签等。91b28资讯网——每日最新资讯28at.com

然后,将这些识别到的视觉信息转换成自然语言描述,用于解释界面内容。91b28资讯网——每日最新资讯28at.com

2、任务规划与执行91b28资讯网——每日最新资讯28at.com

接下来,Agent 利用大语言模型导航,根据用户的指令和界面描述信息做任务规划。91b28资讯网——每日最新资讯28at.com

将用户任务拆解为可执行的步骤,如点击或滑动操作,以自动推进任务的完成。91b28资讯网——每日最新资讯28at.com

3、持续迭代以上过程91b28资讯网——每日最新资讯28at.com

每一步完成后,Agent 都会根据最新界面和历史动作更新其对话和任务规划,确保每一步的决策都是基于当前上下文的。91b28资讯网——每日最新资讯28at.com

这是个迭代的过程,将持续进行直到判断任务完成或达到预设的限制。91b28资讯网——每日最新资讯28at.com

用户不仅能从交互中解放双手,还可以通过可见提示监控任务进度,并随时中断任务,保持对整个流程的控制。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

首先是识别界面中的小部件和文本,检测按钮、文本框等元素及其位置。91b28资讯网——每日最新资讯28at.com

对于没有文本标签的按钮,利用 CLIP 模型基于视觉设计来推断其可能功能。91b28资讯网——每日最新资讯28at.com

随后,系统根据 UI 布局的视觉信息进行区块划分,将界面分割成多个具有不同功能的区块,并对每个区块生成自然语言描述。91b28资讯网——每日最新资讯28at.com

这个过程还包括文本与小部件的匹配,确保正确理解每个元素的功能。91b28资讯网——每日最新资讯28at.com

最终,所有这些信息被转化为自然语言描述,为大语言模型提供清晰、语义丰富的界面信息,使其能够有效地进行任务规划和自动化操作。91b28资讯网——每日最新资讯28at.com

实验评估

实验评估部分,该项目提供了对三种 UI 理解的比较分析,分别是:91b28资讯网——每日最新资讯28at.com

GPT-4V91b28资讯网——每日最新资讯28at.com

VH(视图层级)91b28资讯网——每日最新资讯28at.com

VisionTasker 方法91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

△ 三种 UI 理解方法的比较分析91b28资讯网——每日最新资讯28at.com

对比显示,VisionTasker 在多个维度上比其他方法有显著优势。91b28资讯网——每日最新资讯28at.com

此外,在处理跨语言应用时也表现出了良好的泛化能力。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

△实验 1 中使用到的常见 UI 布局91b28资讯网——每日最新资讯28at.com

表明 VisionTasker 的以视觉为基础的 UI 理解方法在理解和解释 UI 方面具有明显优势,尤其是在面对多样化和复杂的用户界面时尤为明显。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

△ 跨四个数据集的单步预测准确性91b28资讯网——每日最新资讯28at.com

文章还进行了单步预测实验,根据当前的任务状态和用户界面,预测接下来应该执行的动作或操作。91b28资讯网——每日最新资讯28at.com

结果显示,VisionTasker 在所有数据集上的平均准确率达到了 67%,比基线方法提高了 15% 以上。91b28资讯网——每日最新资讯28at.com

真实世界任务:VisionTasker vs 人类91b28资讯网——每日最新资讯28at.com

实验过程中,研究人员设计了 147 个真实的多步骤任务来测试 VisionTasker 的表现,这些任务涵盖了国内常用的 42 个应用程序。91b28资讯网——每日最新资讯28at.com

与此同时,团队还设置了人类对比测试,由 12 名人类评估者手动执行这些任务,然后 VisionTasker 的结果进行比较。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

结果显示,VisionTasker 在大多数任务中能达到与人类相当的完成率,并且在某些不熟悉的任务中表现优于人类。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

△ 实际任务自动化实验的结果“Ours-qwen”是指使用开源 Qwen 实现 VisionTasker 框架,”Ours”表示使用文心一言作为 LLM91b28资讯网——每日最新资讯28at.com

团队还评估了 VisionTasker 在不同条件下的表现,包括使用不同的大语言模型(LLM)和编程演示(PBD)机制。91b28资讯网——每日最新资讯28at.com

VisionTasker 在大多数直观任务中达到了与人类相当的完成率,在熟悉任务中略低于人类但在不熟悉任务中优于人类。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

△VisionTasker 逐步完成任务的展示91b28资讯网——每日最新资讯28at.com

结论

作为一个基于视觉和大模型的移动任务自动化框架,VisionTasker 克服了现阶段移动任务自动化对视图层级结构的依赖。91b28资讯网——每日最新资讯28at.com

通过一系列对比实验,证明其在用户界面表现上超越了传统的编程演示和视图层级结构方法。91b28资讯网——每日最新资讯28at.com

它在 4 个不同的数据集上都展示了高效的 UI 表示能力,表现出更广泛的应用性;并在 Android 手机上的 147 个真实世界任务中,特别是在复杂任务的处理上,表现了出超越人类的任务完成能力。91b28资讯网——每日最新资讯28at.com

此外,通过集成编程演示(PBD)机制,VisionTasker 在任务自动化方面有显著的性能提升。91b28资讯网——每日最新资讯28at.com

目前,该工作已以正式论文的形式发表于 2024 年 10 月 13-16 日在美国匹兹堡举行的人机交互顶级会议 UIST(The ACM Symposium on User Interface Software and Technology)。91b28资讯网——每日最新资讯28at.com

UIST 是人机交互领域专注于人机界面软件和技术创新的 CCF A 类顶级学术会议。91b28资讯网——每日最新资讯28at.com

91b28资讯网——每日最新资讯28at.com

原文链接:https://dl.acm.org/ doi / 10.1145/3654777.367638691b28资讯网——每日最新资讯28at.com

项目链接:https://github.com/ AkimotoAyako / VisionTasker91b28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:关注前沿科技91b28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-9361-0.htmlAI 让手机任务自动“跑”起来!我国高校最新研究,简化移动设备操作

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 荣耀平板GT Pro来袭!骁龙8s Gen 3+10050mAh电池,续航强劲?

下一篇: Python 成 GitHub 最受欢迎编程语言,AI 成主要推动力

标签:
  • 热门焦点
  • B端难做:留给魔珐科技的时间不多了

    来源:零态LT元宇宙泡沫正在碎裂,进入2023年后这一赛道热度一直在递减。今年2月,微软解散了成立仅四个月的工业元宇宙部门;今年3月,该公司2017年收购的虚拟现实社交平台AltspaceVR
  • FMIFAwards奖项即将揭晓!

    来源:X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
  • 元宇宙这一年:技术加速落地,助传统行业走向新阶段

    美国当地时间1月8日,2023年CES(消费电子展览会)完美落幕。而在这项一年一度的科技圈盛事中,元宇宙仍是主角和焦点之一。 索尼在1月6日发布了备受关注的PS VR 2头显
  • 游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 现在的元宇宙:一款低配版的科幻游戏

    在2021年的岁末之际,不禁感叹元宇宙元年之热闹,从元宇宙NFT头像,到元宇宙数字地产,再到元宇宙旅游景区等等,仿佛科幻感十足的元宇宙眨眼间就从人们的概念认知中完全
  • 百度元宇宙希壤是什么?(附下载)

    百度元宇宙希壤是什么,最近很多人关注。还有很多人问希壤怎么下载、百度希壤怎么进入?今天小编带你来全面了解一下。“希壤”是百度于2021年12月27日于百度AI开
  • 2022年最具关注的9个头像NFT项目

    什么是 PFP NFT 项目?PFP NFT (个人资料图片NFT)是一组独特的数字收藏品,人们用来在互联网平台上代表自己。这些数字艺术作品通常是一系列可作为头像的角色,在 Twit
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • 头顶光环无数却估值极低,以太坊这位&——quot;最强杀手&——quot;有望涅槃重生?

    作者:五火球教主提起Dfinity(ICP),你的第一感觉可能与我一样,这是一个让人十分纠结的项目。之所以纠结,一方面他的团队阵容强大,各种来自前英特尔、IBM、coinbase、fa
Top