正能量网站免费下载成都旅游
2026/2/10 1:42:31 网站建设 项目流程
正能量网站免费下载,成都旅游,最新的电商资讯有哪些,做图海报网站前言 实时分块(RTC)技术通过异步预测动作块#xff0c;并借助推理时图像修复对已执行动作进行调节#xff0c;使VLA能够生成流畅、响应迅速的机器人运动轨迹 然而这种修复方法会引入增加推理延迟的计算开销 PI因此再次提出一种简洁替代方案#xff1a;在训练时模拟推理延迟…前言实时分块(RTC)技术通过异步预测动作块并借助推理时图像修复对已执行动作进行调节使VLA能够生成流畅、响应迅速的机器人运动轨迹然而这种修复方法会引入增加推理延迟的计算开销PI因此再次提出一种简洁替代方案在训练时模拟推理延迟直接对动作前缀进行调节从而消除所有推理时开销该方法无需修改模型架构或机器人运行时系统仅需增加数行代码即可实现至于实际效果上一方面模拟实验表明在较高推理延迟场景下训练时实时分块training-time RTC性能优于推理时实时计算inference-time RTC二方面通过π0.6版VLA模型在箱体构建与浓缩咖啡制作任务中的实体实验证明训练时实时分块在保持任务性能与执行速度的同时计算成本显著低于推理时实时计算第一部分1.1 引言、相关工作、预备知识1.1.1 引言如原论文所述与聊天机器人或搜索引擎不同具身智能体必须在实时环境中运作。智能体行为与环境之间的反馈循环要求其具备即时响应能力——如同人类运动员当外部环境变化时智能体无法简单地停滞思考然而前沿模型规模持续扩大使得这一要求愈发难以满足。这在机器人学习领域体现得尤为明显由数十亿参数组成的VLA正日益广泛地应用于高频机器人控制以完成精密操作任务。当模型推理延迟达到数十至数百毫秒时生成流畅且响应灵敏的运动轨迹是一项巨大挑战实时分块处理技术RTC[5]通过融合动作分块[9, 27]、流匹配[13]和推理时动作修复[18, 21]为解决该问题提供了有效途径在实时分块RTC技术中动作区块以异步方式被预测——当前区块仍在执行时下一个区块已开始生成为确保区块间的连续性每个生成过程均以先前预测动作的冻结前缀作为调节条件填补剩余部分然而RTC采用的推理时图像修复方法会引入额外计算开销——进而导致延迟——这在某种程度上违背了实时执行框架的设计初衷实证研究表明推理时图像修复方法本质上难以应对高推理延迟场景对此来自PI公司的研究者 Kevin Black、Allen Z. Ren、Michael Equi、Sergey Levine通过一种训练时模拟推理延迟的图像修复方法增强RTC系统彻底消除推理阶段的计算开销『we augment RTC withan inpainting methodthatsimulates inference delay at training timeand eliminates any inference-time computational overhead』该方法可作为推理时RTC的直接替代方案无需修改模型架构或机器人运行时环境仅需添加数行代码即可实现在模拟基准测试中训练时实时分块training-time RTC在高延迟场景下表现优于推理时实时分块inference-time RTC真实场景验证表明通过对未经动作前缀调节预训练的基础模型进行微调可成功实现训练时RTC的部署比如通过将训练时实时分块应用于π0.6 VLA模型[24]作者在两项高复杂度任务箱体构建与浓缩咖啡制作中展现出优于推理时实时计算的性能提升1.1.2 相关工作首先对于动作分块与VLA模型动作分块[9,26]已成为端到端模仿学习中视觉运动控制的实际标准方法。近期研究表明通过增强视觉语言模型VLM生成动作分块的能力在机器人操作领域取得显著成功由此催生了VLA[4,6-8,10-12,14,17,28,29]随后涌现出大量方法旨在解决大型VLA模型与高频控制之间的协调难题例如Gemini Robotics[23]与GR00T[3]采用分层式VLA架构将模型拆分为重量级系统2高层规划与轻量级系统1底层动作生成组件MiniVLA [2] 和 SmolVLA [20] 提出的视觉语言动作模型架构相比大多数设计具有更快的运行速度和更高的效率使得边缘设备上的推理部署更具可行性这些贡献与本文介绍的Training-Time RTC正交各自存在权衡取舍其次对于VLA的实时执行最密切相关的先前研究是实时分块技术RTC; [5]其提出的异步执行框架为本研究奠定了基础同样相关的是 SmolVLA [20]其提出的异步执行算法与 RTC 技术相似然而 SmolVLA 未能解决分块间不连续性问题导致分块衔接处出现分布外的抖动现象与本研究同期A2C2 [19] 和 VLASH [22] 分别通过添加轻量级校正头模块和基于单个未来动作的条件处理解决了不连续性问题与VLASH不同作者在完整未来动作前缀上进行条件约束1.1.3 背景知识作者采用与RTC[5]相同的问题建模起始于动作分块策略其中表示未来动作块表示观测值代表控制器时间步且称为预测时域在推理阶段每个动作块展开执行个时间步其中称为执行范围为考虑模型推理耗时作者定义作为以控制器时间步为单位的推理延迟若推理始于第步则生成的动作块需至第步方可使用因此前个动作实际无法执行但若满足这些前个时间步将对应先前动作块的可执行动作作者称当前块与先前块重叠的这个动作为动作前缀(参见图1)上图展示两个重叠动作分块的示意图位于时间点 t 与 td 之间的动作(取自前一分块)即为动作前缀(红色标注)由图可知必须满足约束条件才能构成有效动作前缀需注意推理时实时计算使用全部 H-s 个重叠动作(红黄区域)指导当前分块生成而训练时实时分块仅使用前 d 个动作(红色区域)作者考虑采用条件流匹配[13]训练的策略该方法最小化以下损失函数其中是神经网络表示流匹配时间步长。在推理时可将从积分至 1以生成数据集分布的样本// 待更

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询