当前位置:首页 > 元宇宙 > AI

提升机器人 3D 操作能力,北京大学与智元机器人联合实验室发布 OmniManip

来源: 责编: 时间:2025-01-25 09:32:39 144观看
导读 1 月 23 日消息,如何将视觉语⾔基础模型(Vision Language Models, VLMs)应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题,这⼀⽬标的实现受两⼤关键挑战制约:VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式

1 月 23 日消息,如何将视觉语⾔基础模型(Vision Language Models, VLMs)应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题,这⼀⽬标的实现受两⼤关键挑战制约:4VY28资讯网——每日最新资讯28at.com

VLM 缺少精确的 3D 理解能⼒:通过对⽐学习范式训练、仅以 2D 图像 / ⽂本作为输⼊的 VLM 的天然局限;4VY28资讯网——每日最新资讯28at.com

⽆法输出低层次动作:将 VLM 在机器⼈数据上进⾏微调以得到视觉 - 语⾔ - 动作(VLA)模型是⼀种有前景的解决⽅案,但⽬前仍受到数据收集成本和泛化能⼒的限制。4VY28资讯网——每日最新资讯28at.com

4VY28资讯网——每日最新资讯28at.com

上海智元新创技术有限公司官方今日发文称,北⼤携⼿智元机器⼈团队提出 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。4VY28资讯网——每日最新资讯28at.com

针对⼤模型幻觉问题和真实环境操作的不确定性,OmniManip 引⼊了 VLM 规划和机器⼈执⾏的双闭环系统设计,实现了操作性能突破。目前项⽬主⻚与论⽂已上线,代码与测试平台即将开源。4VY28资讯网——每日最新资讯28at.com

4VY28资讯网——每日最新资讯28at.com

从智元机器人官方获悉,OmniManip 的关键设计包括:4VY28资讯网——每日最新资讯28at.com

基于 VLM 的任务解析:利⽤ VLM 强⼤的常识推理能⼒,将任务分解为多个结构化阶段(Stages),每个阶段明确指定了主动物体(Active)、被动物体(Passive)和动作类型(Action)。4VY28资讯网——每日最新资讯28at.com

以物体为中⼼的交互基元作为空间约束:通过 3D 基座模型⽣成任务相关物体的 3D 模型和规范化空间(canonical space),使 VLM 能够直接在该空间中采样 3D 交互基元,作为 Action 的空间约束,从⽽优化求解出 Active 物体在 Passive 物体规范坐标系下的⽬标交互姿态。4VY28资讯网——每日最新资讯28at.com

闭环 VLM 规划:将⽬标交互姿态下的 Active / Passive 物体渲染成图像,由 VLM 评估与重采样,实现 VLM 对⾃身规划结果的闭环调整。4VY28资讯网——每日最新资讯28at.com

闭环机器⼈执⾏:通过物体 6D 姿态跟踪器实时更新 Active / Passive 物体的位姿,转换为机械臂末端执⾏器的操作轨迹,实现闭环执⾏。4VY28资讯网——每日最新资讯28at.com

此外,OmniManip 具备通⽤泛化能⼒,不受特定场景和物体限制。团队已将其应⽤于数字资产⾃动标注 / 合成管道,实现⼤规模的机器⼈轨迹⾃动采集。该研究团队将开源泛化操作⼤规模数据集和对应的仿真评测基准。4VY28资讯网——每日最新资讯28at.com

据此前报道,以“天才少年”身份加入华为的稚晖君于 2022 年底宣布离职,创业智元机器人。2024 年 9 月 3 日,智元机器人完成 A++++++ 轮融资,估值已超过 70 亿元,得到了包括北汽、上汽、比亚迪在内的国内汽车巨头支持。4VY28资讯网——每日最新资讯28at.com

目前,智元机器人量产的第 1000 台通用具身机器人已于本月(1 月 6 日)正式下线,其中包括 731 台双足人形机器人(远征 A2 / 灵犀 X1)和 269 台轮式通用机器人(远征 A2-D / A2-W)。4VY28资讯网——每日最新资讯28at.com

4VY28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-10143-0.html提升机器人 3D 操作能力,北京大学与智元机器人联合实验室发布 OmniManip

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 法国 AI 初创企业 Mistral 首席执行官称该公司不会出售,计划 IPO

下一篇: 自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验

标签:
  • 热门焦点
  • 雷克萨斯高管,“受贿”5000万?

    来源:毒舌科技作者:潘磊雷克萨斯的高管,好像出事了。五六家日本小媒体,突然曝出了一个与中国市场有关的大新闻——雷克萨斯中国区一个高管受贿10亿日元(约合人民币5000
  • 《蜘蛛侠》火了,超级英雄就该这么演

    燃次元(ID:chaintruth)原创作者 | 陶 淘编辑 | 曹 拿下豆瓣8.8分、IMDB 9.1的高分,6月2日在全球同步上映的《蜘蛛侠:纵横宇宙》(以下简称《蜘蛛侠》),上映不足一周,便在国内“
  • 文心一言排名垫底,却成为百度业绩增长杠杆

    文/侯煜编辑/罗卿知识增强大预言模式文心一言发布后,百度公司热度大幅提升,文心一言到底能为百度的业绩带来多大的增益成为业内关注焦点。近日,百度(NASDAQ:BIDU/09888.HK)公布了
  • 元宇宙步入暗夜

    撰文 | 文烨豪元宇宙的故事,似乎讲不通了。 当下,刮起元宇宙热潮的Roblox股价已跌去大半,带头大哥Meta也正因元宇宙亏损深陷泥潭。 再看国内,从字节“派对岛&
  • 搭上“谷爱凌”,“柳夜熙们”站上风口?

    作者:张琳 曹杨从“永不塌房”的艺人到频频亮相北京冬奥会,作为元宇宙细分赛道之一的虚拟数字人又火了一把。2月7日,即谷爱凌摘得冬奥会自由式滑雪大跳台金牌的
  • 从冰墩墩到无聊猿,解秘未来IP爆款的模因

    打造IP,是建设元宇宙的刚需。NFT能直接让IP的价值变现;虚拟人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一个个品牌IP星球,考验的是IP世界观的建设能力。如果说在
  • 虚拟数字人:元宇宙的主角破圈而来

    虚拟数字人市场逐步进入成熟期,商业化进程加速。1982年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制
  • NFT 技术将传世之作带入博物馆

    意大利四大博物馆已与一个项目合作,该项目将展示和销售达芬奇、卡拉瓦乔、拉斐尔和莫迪利亚尼等人的杰作的 NFT复制品。该计划采用了 科技公司Cincello的国际专
  • 超级账本Julian Gordon:联盟链与公链的竞争不是非此即彼

    在2021年《福布斯》区块链50强榜单中,29家企业使用Hyperledger超级账本技术,占比近60%。同年,研究机构Blockdata发布了的调查报告显示,访问Top100上市公司中,有 81
Top