2026/2/13 5:10:57
网站建设
项目流程
做三轨网站犯法吗,建筑工程公司黄页,企业宣传片,怎么网络推广自己业务【PNP解读】灵巧手操作#xff1a;微软ETH等提出一种超越传统视觉-语言-动作模型#xff08;VLA#xff09;的新型机器人控制范式VAM
原创 PNP机器人 PnP机器人 2026年1月1日 08:31 加拿大 灵巧手操作#xff1a;微软ETH等提出 一种超越传统视觉-语言-动作模型#xff08…【PNP解读】灵巧手操作微软ETH等提出一种超越传统视觉-语言-动作模型VLA的新型机器人控制范式VAM原创 PNP机器人 PnP机器人2026年1月1日 08:31加拿大灵巧手操作微软ETH等提出 一种超越传统视觉-语言-动作模型VLA的新型机器人控制范式 VAM论文 mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs 提出了一种超越传统视觉-语言-动作模型VLA的新型机器人控制范式——Video-Action ModelVAM。该方法不再仅依赖静态视觉或语言语义而是引入大规模预训练视频生成模型作为核心先验直接利用视频中蕴含的时序动态与物理演化规律来指导机器人动作生成。通过将“视频层面的动态规划”与“动作层面的逆动力学映射”解耦mimic-video 显著提升了样本效率与训练稳定性。在模拟与真实机器人实验中该方法在仅需少量机器人数据的情况下即可在复杂操作任务上取得优于 VLA 与扩散策略基线的表现。该工作表明视频模型是连接感知与行动、推动通用具身智能的重要桥梁。PnP机器人PART 01提要与研究动机近年来机器人操作领域涌现出大量基于视觉与语言的控制模型Vision-Language-Action Models, VLAs通过将视觉观察与语言指令融合输入机器人策略网络实现端到端指令到动作的映射。VLA 这类模型通常依托于大规模静态视觉-语言预训练骨干如联合训练的图像与文本模型在零样本语义理解与多任务泛化方面表现出显著改进。然而这类模型存在一个本质限制静态的视觉-语言预训练并未捕捉 物理动态与因果关系 机器人策略仍需从零开始仅通过机器人轨迹数据隐式学习复杂的物理运动规律与时间依赖性。这造成了极高的动作数据需求并且对动态推理能力有限。论文提出 mimic-video ——一种全新的Video-Action Model (VAM) 架构它通过将机器人策略直接建立在大规模预训练的视频生成模型之上利用视频对时序动态与物理变化的直观编码将控制问题从从零学习物理动态转化为利用视频中固有的运动先验来“解读视觉计划再映射到动作”。这种范式显著提高数据效率与学习速度并对复杂操作任务展现出更强泛化能力。PART 02VLA 模型的局限与视频先验的价值传统 VLA 模型的核心是一个视觉-语言大模型Vision-Language Model, VLM作为骨干它通过联合图像与文本预训练习得语义表示。但是这种静态视觉语义并不能自然包含时序动态和因果物理运动例如抓取过程中的接触力变化、物体移动路径等核心动态信息都不在静态图像或语言解释中这使得机器人策略网络必须通过大量机器人轨迹去逼近这些动态规律。结果是依赖大规模专家演示数据才能获得鲁棒控制策略这对于训练成本与可扩展性都是巨大瓶颈。论文指出 视频本身作为“动态视觉序列”能够同时包含语义信息与时序物理变化 因此如果控制策略能够直接从视频中学习世界演化规律机器人策略就不必再从头去学习物理动态而只需专注于将视觉计划有效转化为低级动作。也就是说视频预训练自带的动态先验可分担机器人策略学习中的动力学与时序理解负担从而提高效率与泛化能力。PART 03mimic-video 框架与模型设计为了实现 video-grounded control论文提出了 Video-Action Model (VAM) 架构其核心由两个主要组件构成预训练视频生成模型 使用如 Nvidia Cosmos-Predict2 这样的大规模视频生成模型作为动态视觉先验的编码器该模型在互联网规模的视频上预训练学习到丰富的动态场景变化与因果视觉提示。通过扩散与流匹配机制模型可以生成或预测视频帧序列形成对未来状态的视觉计划。动作解码器Action Decoder 在视频生成模型提取的中间latent 表征上条件化一个较小的动作解码模块它实现典型的 inverse dynamics逆动力学映射 给定当前机器人态势如关节位置、速度等和视频 latent它输出对应的机器人动作序列。动作解码器使用 flow-matching 方式训练使其能从隐变量的视觉计划中恢复出动作信号。关键设计理念是使视频生成和动作生成在不同的流flow时间表上独立优化避免在大网络上进行联合反向传播破坏预训练动力学知识。这种 “先视频再动作” 的分离范式使得视觉动态建模和运动控制问题可以分而治之显著提升训练稳定性与效率。PART 04实验设置与评估指标论文在多个模拟与真实操作任务中对 mimic-video 进行了广泛评估模拟平台 在 SIMPLER 和 LIBERO 等公开操控基准上测试模型的样本效率、成功率与收敛速度。与标准 VLA 基线相比mimic-video 在相同实验条件下显著减少了对机器人轨迹数据的需求并在少样本 regime 中保持优异性能。真实机器人评估 在真实机器人平台如 Franka机械臂 咨询PNP机器人 搭载高自由度仿人手臂上开展了两个复杂任务包裹分拣和卷尺放置。实验证明即便在只有单摄像头单视角和极少示例的条件下mimic-video 仍能完成任务且成功率远超基线控制器。对比基线 主要与传统的 Diffusion PolicyDP和 VLA Baseline 进行对比后者习惯性地从视频或图像-语言预训练中学习但缺乏动态视觉先验。评估指标涵盖 样本效率达到特定成功率所需数据量、训练收敛速度、最终任务成功率和真实机器人控制鲁棒性 。这些指标全面反映了控制策略在不同维度的泛化与实用性。PART 05主要实验结果与消融分析实验结果显示mimic-video 在样本效率和收敛速度上均显著优于传统 VLA 架构样本效率提升约 10× 在相同任务和基准上mimic-video 仅需原来约 10% 的机器人动作数据即能匹配甚至超过 VLA 基线性能说明视频先验极大减少了对机器人示例数据的依赖。训练收敛速度提升约 2× 模型在动作解码模块训练时收敛更快表现出更稳定的学习曲线。更深入的消融实验还表明当使用真实专家视频对应的中间潜变量作为动作解码条件时策略表现极其接近完美说明动作策略学习的核心障碍在于“视觉动态预测质量”而非逆动力学映射本身。这一现象明确指出如果视频模型足够好则控制问题几乎被简化为视觉预测问题。此外论文探讨了利用不同噪声水平partial denoising提取中间 latent 的影响。实验发现 中等噪声水平的隐变量比完全还原的高清表示更适合动作生成 可能是因为过于精细的视觉细节对控制策略并非必要且可能引入噪声。PART 06实用价值、局限性与未来方向PnP机器人赞2从实用角度看mimic-video 架构具有显著优势更高数据效率 大大降低了机器人示例采集成本这对于需要大量演示的真实机器人学习至关重要。更好的泛化性 凭借视频中的动态知识对不同任务与环境展现出较高鲁棒性。结构直观易用 动作解码器相对轻量视频先验可通过 LoRA 等方式在少量任务视频上微调便于集成到现有机器人系统。然而当前系统仍存在若干局限视角限制 论文主要基于单视角视频对于多视角空间推理的适用性尚未充分验证。跨机器人泛化 当前实验集中在特定平台和任务上跨不同机器人形态和体态的一致表现尚待验证。视频模型质量依赖 性能明显依赖于视频模型本身的动态精度如果视频生成质量不足控制策略仍会受限。未来研究方向包括扩展多视角视频先验、增强跨体态泛化、以及将此范式与语言或强化学习组合以处理更长时程任务。PART 07结论mimic-video 提出了一种划时代的机器人控制学习范式它将强大的视频生成模型作为物理动态先验重新定义机器人策略学习的基本路径。相较传统 VLA 模型这一方法显著提升样本效率、加速训练收敛、增强泛化能力并在真实复杂操作任务中表现出色。这项工作不仅为高效机器人学习提供了新思路也揭示了视频作为物理世界动态桥梁在具身智能中的核心价值。随着视频模型与动态控制研究的进一步发展基于 VAM 的控制系统有望推动通用机器人策略向更高效、更泛化、更真实环境适应能力迈进。