当前位置:首页 > 科技  > 数码

VLA模型:具身智能的突破与挑战

来源: 责编: 时间:2025-06-04 08:03:22 174观看
导读在具身智能领域,视觉-语言-动作模型(VLA)作为一种新兴范式,正逐渐崭露头角。该模型通过整合视觉信息、语言指令和行动决策,显著提升了机器人对复杂环境的理解和适应能力,为机器人从单一任务执行向多样化场景自主决策的转变

在具身智能领域,视觉-语言-动作模型(VLA)作为一种新兴范式,正逐渐崭露头角。该模型通过整合视觉信息、语言指令和行动决策,显著提升了机器人对复杂环境的理解和适应能力,为机器人从单一任务执行向多样化场景自主决策的转变提供了强大支持。VLA因此成为学术界和工业界的研究热点。mMP28资讯网——每日最新资讯28at.com

近期,雷峰网与AI科技评论GAIR Live品牌联合举办了一场线上圆桌沙龙,主题为“具身智能之VLA的实践与突破”。此次沙龙由北京大学计算机学院助理教授仉尚航主持,并邀请了清华大学交叉信息院的助理教授高阳、赵行,以及北京大学人工智能研究院的助理教授杨耀东,共同探讨VLA的最新进展和未来方向。mMP28资讯网——每日最新资讯28at.com

mMP28资讯网——每日最新资讯28at.com

沙龙上,仉尚航首先引导讨论了VLA的定义、起源及其与其他相关模型的区别。随后,各位嘉宾深入分析了VLA的技术路线和新成果,探讨了不同技术路线的优缺点,并围绕机器人常见任务,剖析了核心技术瓶颈和主流输出范式。还讨论了强化学习与VLA的结合、泛化能力的提升、异构数据的利用以及协同训练等议题。mMP28资讯网——每日最新资讯28at.com

高阳指出,推理与数据是当前VLA面临的两大核心挑战。尽管已有不少研究探索了VLA与推理的结合路径,但尚未找到最优方案。同时,VLA的数据量级远不及训练大语言模型(VLM)的数据,且多样性严重不足,这限制了模型的能力提升。赵行表示,VLA在实际应用中的系统运行频率单一化问题,以及高低频自适应闭环系统的设计,仍是未解决的课题。杨耀东则提到,当前VLA训练存在割裂问题,大脑(VLM)和小脑(底层策略模型)多分开训练,缺乏端到端训练及类似人类大小脑的双向交互。mMP28资讯网——每日最新资讯28at.com

在讨论VLA的前世今生时,高阳回顾了VLA的起源和发展,指出其源于大模型的技术变革。杨耀东则从大模型视角和行为动作决策控制视角阐述了VLA的重要性。赵行则分享了GPT-4发布对其研究方向的启发,以及VLA在解决长尾问题上的潜力。mMP28资讯网——每日最新资讯28at.com

对于VLA的技术路线和最新进展,高阳提到了架构与数据两方面的进展,并强调了数据多样性的重要性。杨耀东从模型架构角度分类了VLA,并探讨了行为动作空间的表征方式。赵行则关注双系统设计,并介绍了不同团队在VLA方面的研究成果。mMP28资讯网——每日最新资讯28at.com

在探讨VLA的核心技术瓶颈时,高阳强调推理和数据的挑战,赵行提到高低频自适应闭环系统的设计难题,杨耀东则指出端到端训练和测试时计算闭环的缺乏。对于强化学习与VLA的结合,嘉宾们一致认为这是VLA发展的必由之路,但仍面临许多未解问题。mMP28资讯网——每日最新资讯28at.com

在数据使用方面,高阳强调数据的多样性比绝对数量更重要,并介绍了千寻智能如何利用互联网数据优化VLA模型。杨耀东则提出,互联网数据虽然丰富,但信噪比低,且对具体任务的适用性有限。赵行则认为,仿真数据可以作为真实数据的补充,通过技术手段缩小sim to real gap。mMP28资讯网——每日最新资讯28at.com

对于VLA的泛化能力,嘉宾们提出了多种提升策略,包括利用大量互联网数据进行联合训练、创新模型架构、实现具身认知等。在探讨VLA与本体构型设计的关系时,嘉宾们认为VLA模型与机器人本体没有必然绑定,但硬件局限和VLA能力需相互匹配。mMP28资讯网——每日最新资讯28at.com

最后,关于VLA是否能完成长程任务,嘉宾们持不同观点。高阳认为,先通过VLM拆解任务再由VLA执行是更实际的方法。杨耀东则强调VLA具备完成长程任务的潜力,并指出需赋予模型推理能力和测试时计算闭环。赵行则提出,需先定义和评测推理能力,再探索VLA在长程任务中的应用。mMP28资讯网——每日最新资讯28at.com

在落地场景方面,嘉宾们一致认为工业场景是VLA最先落地的选择,但也提到了商业领域和ToBC模式等新场景的可能性。mMP28资讯网——每日最新资讯28at.com

此次圆桌沙龙为观众带来了VLA领域的深入洞察和前沿思考,对于推动VLA技术的发展和应用具有重要意义。mMP28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-24-155818-0.htmlVLA模型:具身智能的突破与挑战

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 赛力斯5月销量稳健增长,鸿蒙智行全系交付再创新高!

下一篇: 雷军透露:小米汽车工厂试用机器人,汽车芯片即将面世

标签:
  • 热门焦点
  • 小米平板5 Pro 12.4简评:多专多能 兼顾影音娱乐的大屏利器

    疫情带来了网课,网课盘活了安卓平板,安卓平板市场虽然中途停滞了几年,但好的一点就是停滞的这几年行业又有了新的发展方向,例如超窄边框、高刷新率、多摄镜头组合等,这就让安卓
  • 0糖0卡0脂 旭日森林仙草乌龙茶优惠:15瓶到手29元

    旭日森林无糖仙草乌龙茶510ml*15瓶平时要卖为79.9元,今日下单领取50元优惠券,到手价为29.9元。产品规格:0糖0卡0脂,添加草本仙草汁,清凉爽口,富含茶多酚,保留
  • 十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • 一篇聊聊Go错误封装机制

    %w 是用于错误包装(Error Wrapping)的格式化动词。它是用于 fmt.Errorf 和 fmt.Sprintf 函数中的一个特殊格式化动词,用于将一个错误(或其他可打印的值)包装在一个新的错误中。使
  • Java NIO内存映射文件:提高文件读写效率的优秀实践!

    Java的NIO库提供了内存映射文件的支持,它可以将文件映射到内存中,从而可以更快地读取和写入文件数据。本文将对Java内存映射文件进行详细的介绍和演示。内存映射文件概述内存
  • 微信语音大揭秘:为什么禁止转发?

    大家好,我是你们的小米。今天,我要和大家聊一个有趣的话题:为什么微信语音不可以转发?这是一个我们经常在日常使用中遇到的问题,也是一个让很多人好奇的问题。让我们一起来揭开这
  • 为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 华为Mate60标准版细节曝光:经典星环相机模组回归

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
  • 由于成本持续增加,笔记本产品价格预计将明显上涨

    根据知情人士透露,由于材料、物流等成本持续增加,笔记本产品价格预计将在2021年下半年有明显上涨。进入6月下旬以来,全球半导体芯片缺货情况加剧,显卡、处理器
Top