当前位置:首页 > 元宇宙 > AI

提升机器人 3D 操作能力,北京大学与智元机器人联合实验室发布 OmniManip

来源: 责编: 时间:2025-01-25 09:32:39 131观看
导读 1 月 23 日消息,如何将视觉语⾔基础模型(Vision Language Models, VLMs)应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题,这⼀⽬标的实现受两⼤关键挑战制约:VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式

1 月 23 日消息,如何将视觉语⾔基础模型(Vision Language Models, VLMs)应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题,这⼀⽬标的实现受两⼤关键挑战制约:act28资讯网——每日最新资讯28at.com

VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式训练、仅以 2D 图像 / ⽂本作为输⼊的 VLM 的天然局限;act28资讯网——每日最新资讯28at.com

⽆法输出低层次动作:将 VLM 在机器⼈数据上进⾏微调以得到视觉 - 语⾔ - 动作(VLA)模型是⼀种有前景的解决⽅案,但⽬前仍受到数据收集成本和泛化能⼒的限制。act28资讯网——每日最新资讯28at.com

act28资讯网——每日最新资讯28at.com

上海智元新创技术有限公司官方今日发文称,北⼤携⼿智元机器⼈团队提出 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。act28资讯网——每日最新资讯28at.com

针对⼤模型幻觉问题和真实环境操作的不确定性,OmniManip 引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,实现了操作性能突破。目前项⽬主⻚与论⽂已上线,代码与测试平台即将开源。act28资讯网——每日最新资讯28at.com

act28资讯网——每日最新资讯28at.com

从智元机器人官方获悉,OmniManip 的关键设计包括:act28资讯网——每日最新资讯28at.com

基于 VLM 的任务解析:利⽤ VLM 强⼤的常识推理能⼒,将任务分解为多个结构化阶段(Stages),每个阶段明确指定了主动物体(Active)、被动物体(Passive)和动作类型(Action)。act28资讯网——每日最新资讯28at.com

以物体为中⼼的交互基元作为空间约束:通过 3D 基座模型⽣成任务相关物体的 3D 模型和规范化空间(canonical space),使 VLM 能够直接在该空间中采样 3D 交互基元,作为 Action 的空间约束,从⽽优化求解出 Active 物体在 Passive 物体规范坐标系下的⽬标交互姿态。act28资讯网——每日最新资讯28at.com

闭环 VLM 规划:将⽬标交互姿态下的 Active / Passive 物体渲染成图像,由 VLM 评估与重采样,实现 VLM 对⾃身规划结果的闭环调整。act28资讯网——每日最新资讯28at.com

闭环机器⼈执⾏:通过物体 6D 姿态跟踪器实时更新 Active / Passive 物体的位姿,转换为机械臂末端执⾏器的操作轨迹,实现闭环执⾏。act28资讯网——每日最新资讯28at.com

此外,OmniManip 具备通⽤泛化能⼒,不受特定场景和物体限制。团队已将其应⽤于数字资产⾃动标注 / 合成管道,实现⼤规模的机器⼈轨迹⾃动采集。该研究团队将开源泛化操作⼤规模数据集和对应的仿真评测基准。act28资讯网——每日最新资讯28at.com

据此前报道,以“天才少年”身份加入华为的稚晖君于 2022 年底宣布离职,创业智元机器人。2024 年 9 月 3 日,智元机器人完成 A++++++ 轮融资,估值已超过 70 亿元,得到了包括北汽、上汽、比亚迪在内的国内汽车巨头支持。act28资讯网——每日最新资讯28at.com

目前,智元机器人量产的第 1000 台通用具身机器人已于本月(1 月 6 日)正式下线,其中包括 731 台双足人形机器人(远征 A2 / 灵犀 X1)和 269 台轮式通用机器人(远征 A2-D / A2-W)。act28资讯网——每日最新资讯28at.com

act28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10143-0.html提升机器人 3D 操作能力,北京大学与智元机器人联合实验室发布 OmniManip

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 法国 AI 初创企业 Mistral 首席执行官称该公司不会出售,计划 IPO

下一篇: 自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验

标签:
  • 热门焦点
  • 一份全面清单:Web3行业高薪酬的13种工作

    来源:区块链骑士这可能会让许多人感到震惊,但除了成为开发人员之外,Web3还有其他高薪工作。Web3可能是现代就业市场中跨学科最多的领域,换句话说,它由许多个在不同领域中具有不同
  • 元娲2.7上线:虚拟人视频制作速度疯狂翻倍!

    来源:清元宇宙 炎炎夏日努力工作的Q仔的电脑都冒烟儿啦~今天要给大家介绍两个新小伙伴——小元和小娲,他们将给大家解读元娲2.7版本重磅更新内容~大家掌声欢迎~~~本次更
  • 汽车元宇宙,是概念还是未来?

    作者|何文 元宇宙是未来趋势已经无需验证。 从概念上来看,元宇宙是两种存在多年的概念的融合:虚拟现实和数字第二人生。这也就意味着,元宇宙所代表的是一种新的数
  • 中文在线的“元宇宙”故事,资本听腻了?

    被誉为“元宇宙”龙头之一的中文在线,这下尴尬了。2022年1月11日,中国移动通信联合会元宇宙产业委员会揭牌,接纳涉足“元宇宙”的8家上市公司,包括中青宝、天下秀
  • 冰墩墩NFT遇冷,价格跌80%,日成交仅3笔。

    “两日上涨千倍”并不存在,且冰墩墩NFT的市场热度远不及社交媒体所称的那样高。2月11日,获得国际奥委会授权的2022冬奥会吉祥物冰墩墩相关NFT产品在nWayPlay上线
  • Kitten Coup社区反转Cool Kittens NFT骗局

    当狂热的加密爱好者将金钱投入到NFT图片时,浑水摸鱼的骗局随之而来,Cool Kittens NFT便是其中一个作恶者,该项目于去年11月在Sonala链上启动小猫形象的NFT铸造及
  • 过去女性在互联网领域是半边天,在Web3,将会是整片天!

    Web 2.0 是由几家“直男”大公司塑造的。接下来的Web3世界中,如果女性在创造性方面发挥更大的作用,可能会让这个新时代更受欢迎、更安全和公平。当我们谈论 Web3
  • 盘点9个主流元宇宙平台,你都知道哪些?

    随着NFT的持续升温,它也加入了现在的元宇宙浪潮。本文介绍元宇宙的基本概念以及 九个最流行的元宇宙NFT平台,如Decentraland、sandbox等。用熟悉的语言学习 以太
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
Top