2026/4/16 3:38:05
网站建设
项目流程
网站开发多少人,wordpress 增加下载功能,网站搭建模板,网站优化推广多少钱多模态大模型#xff08;VLM#xff09;当前在多个领域产生了令人惊叹的落地应用#xff0c;具身智能领域为了利用 VLM 在预训练期间学习到的通用视觉语义理解能力#xff0c;将 VLM 作为基座来构建 Vision-Language-Action#xff08;VLA#xff09;模型#xff0c;并希…多模态大模型VLM当前在多个领域产生了令人惊叹的落地应用具身智能领域为了利用 VLM 在预训练期间学习到的通用视觉语义理解能力将 VLM 作为基座来构建 Vision-Language-ActionVLA模型并希望这种预训练带来的通用语义能力能够让 VLA 实现通用具身。当下以 VLM 为基座模型构建的策略并使用大规模机器人数据训练基本形成了当下 VLA 方案的标配。然而 VLA 领域依然存在一个很大的问题“在训练过程中VLM 部分在通用语义理解与具身机器人细粒度动作学习上好像始终只能二选一。 VLA 动作轨迹学习的同时往往会导致基座模型的“灾难性遗忘”这违背了以预训练 VLM 为基座来构建 VLA 模型的初衷。不少团队期望通过大量的真机或仿真数据解决这个问题然而具身数据成本高昂、采集周期长的问题让很多团队无法放开手脚。更为严重的是我们是否已经“本末倒置”了具身的通用性是否只能通过海量轨迹数据提升原文链接无额外数据成本性能提升显著VLA“双脑”架构如何无痛碾压π0.5一VLA 长久以来存在的“矛盾”通用感知能力与丝滑动作学习的冲突具身领域早期主要依赖专用机器人模型直接学习动作映射但带来的问题是“泛化能力不足”难以适应复杂场景。随着VLM在多模态领域的能力提升VLM开始被越来越多应用到VLA框架内。VLM也被期望提供对指令和环境的“精准理解”通过该认知去学习更有效的动作。但 VLM 模型的通用语义理解能力和下游机器人执行任务好像一直在”暗中较劲“无法共赢。机器人任务的优化与预训练模型的目标一直存在分歧一个努力适配更通用的语义理解与生成另外一个则是希望更精细的动作执行。更细致的来看VLA 的的核心是将视觉语言输入转化为连续或者离散的动作而 VLM 则是更关注视觉和语言的对齐与通用语义的理解。可以想像强迫一个模型去学习更垂直的信息通用内容则会不可避免的损失掉这也是模仿学习的弊病“灾难性遗忘”。VLA 模型的能力正在被这个看似不可消除的分歧“拉低”。这种“两权相害取其轻”的局面让很多团队都不知如何彻底解决。二基座模型对通用具身任务“至关重要”作为核心大脑基座模型的能力对具身来说至关重要。牺牲通用能力去做轨迹拟合无论是“科研式的摸索上限“还是“工程化落地”都不合适。这就引入了一个很有价值的问题“单脑”VLA模型是否已经不符当下的业务和落地需求求木之长者必固其根本欲流之远者必浚其泉源。具身这座大楼想要建的更高地基必须稳。绝大多数团队都不希望反过来修复那些“没有解决的bug”。而完成这一点要把需要学习和需要保留的信息“冲突”问题解决一条线路上解决不了那就多条。这促使我们重新思考当前的路径是否需要通过结构革新从而更好地守护基座模型的核心价值三“两个大脑”让VLA能够“独立思考”不依赖数据也能SOTA做个类比人类可以通过左右脑来分开处理各类“可能互斥”的内容而 VLM 正是 VLA 的大脑角色那么 VLA 是否可以引入两个 VLM 呢一个负责感知、一个负责动作的协调。训练的时候再也不需要“迁就”彼此。从性能提升上来说VLA 应该模仿这种双大脑的结构把自己打造成一个“认知和技能”都拉满的模型。之前的 VLA 工作大多是采用训练策略和数据扩充来保证语义理解的泛化和策略细节很少在模型结构上做改进。近日一篇名为 TwinBrainVLA 的工作彻底打破这一格局。本工作的一作为俞斌来自中关村学院其导师陈凯博士是中关村两院具身智能方向负责人、同时也是深度机智的创始人。这篇工作创新性地使用两个大脑来提升基座模型的合理性语义理解与策略学习互斥的问题不再是僵局。指标上也无痛超越pi0.5这次彻底把基座模型的桌子掀翻了VLA与具身的通用性问题正在被破解。这是对“模型能力聚于单一架构”这一行业惯性的挑战证明了“分工协作”的结构可以释放更大的性能潜力。论文链接https://arxiv.org/pdf/2601.14133项目链接https://github.com/ZGC-EmbodyAI/TwinBrainVLA1左脑“通用”右脑“专精”TwinBrainVLA 提出了适配 VLA 任务的两个关键 VLM 模块语义理解部分和策略学习部分。其中左脑专注于开放世界的视觉-语言理解右脑则关注丝滑的机器人策略学习。左脑作为纯粹的通用多模态大模型仅接收视觉和语言的 tokens而右脑负责具身控制须以机器人的物理状态为基础。2两个大脑如何交互如何避免灾难性遗忘如果两个VLM还能相互参考就真的太好了优势互补可以发挥到极致。TwinBrainVLA创新性提出了非对称 Transformer 混合方案AsyMoT让学习动作知识的VLM模型能够参考更多语义信息同时保留策略学习的能力。具体实现上左脑在训练过程中保持冻结状态右脑则采用非对称联合注意力机制不仅查询自己也参考左脑的语义特征。非对称机制保证了可训练的右脑能够关注左脑的冻结键值KV对使通用语义知识能够转移到机器人控制策略而不会产生灾难性遗忘。这表明通过结构性的创新设计可以实现通用性和专业性的共存。3基于流匹配的动作专家TwinBrainVLA 采用 Diffusion TransformerDiT架构作为动作专家这也是 pi0 的基础模型中使用的生成式策略架构任务使用流匹配进行训练。后期通过交叉注意机制将来自能够在训练阶段进行参数更新的右脑空间信息丰富的表征注入到 DiT 中策略学习可以很明确地由非对称的VLM输出信息引导。4如何训练保证任务的独立TwinBrainVLA 与 GR00T 一致仅使用机器人动作目标来优化最小化 Flow-Matching 损失其中D r o b o t D_{robot}Drobot是机器人数据θ R \theta_RθR、ψ、φ 分别表示右脑、动作专家和状态编码器的可训练参数。训练过程中确保左脑参数的不更新右脑则更新学习策略表示。TwinBrainVLA 的双流结构设计让 VLA 模型在获得动作学习的同时还能保留通用语义能力。四仅提升基模的结构超越具身领域主流方案在机器人领域通常认为性能的提升高度依赖于动辄数百万条的真实机器人操作数据。然而TwinBrainVLA 证明了通过保留 VLM 的通用语义信息能力VLA 模型可以在不依赖超大规模机器人特定数据的前提下仅用少量数据进行微调即可实现对当前主流商业模型的全面超越为数据效率提升提供了新的范本。TwinBrainVLA 在两个仿真评测基准 SimplerEnv 和 RoboCasa 上进行了大量实验分别选择了 Qwen2.5-VL-3B-Instruct 和 Qwen3-VL-4B-Instruct 作为基座模型。1SimplerEnv 基准上仅使用少量机器人数据微调超越主流商业模型SimplerEnv上的实验主要关注四个操作任务“将勺子放在毛巾上”、“将胡萝卜放在盘子上”、“将绿色方块堆叠在黄色方块上”、“将茄子放入黄色篮子中”。在 SimplerEnv 基准的对比结果分析上TwinBrainVLA 与 π0、π0.5、NVIDIA Isaac-GR00T N1.6 等模型展开了对比结果如下表所示相比于 pi0.5 和 GR00T 57.1% 的成功率指标TwinBrainVLA 在 3B 模型下实现了 58.4%4B 下实现了 62.0%。这也验证了双脑架构在连接高级语义理解和低级机器人控制方面的有效性。2RoboCasa 的 24 个复杂操作任务超越 NVIDIA 最新 GR00T 模型 7 个点RoboCasa GR1 基准包含了 24 个多样化的桌面操作任务主要是与铰接物体的复杂交互比如微波炉、烤面包等。TwinBrainVLA 与 NVIDIA GR00T-N1.6 模型进行了对比分析并使用 Qwen3-VL-4B-Instruct 作为基座模型。对比结果如下表所示TwinBrainVLA 优势突出复杂操作任务上的平均准确率最高达到54.6%相比于 NVIDIA Isaac-GR00T 的47.8%提升明显。其中 Bottle To Cabinet Close 任务相比于其他两个模型提升最大。五“好数据”是基座模型必不可少的“营养”Twinbrainvla方案拉升了基座模型的想象空间相比于训练策略和数据上的提升结构上的创新则是为其它建设提供“更结实的底座”由此带动的无痛涨点更具有价值。作为一个通用的方法可以为各类VLA模型提供“通用语义与策略学习的基础信息”。在基座模型之外通用具身的路上还有一个很重要的高地高价值数据。它也决定了具身机器人能在真实场景下“走多远”这一点Twinbrainvla团队也在不断发力。说起陈凯博士他是中科大少年班出身也是中科大-微软亚洲研究院联合培养博士毕业后留任微软亚洲研究员。在微软亚洲研究院期间陈凯率先推动人工智能模型分布式训练规模从单机走向百卡、千卡级别。其提出和主导的多项关键技术被广泛应用于Office、Windows等核心产品体系服务全球海量用户为后续大模型时代的工程范式奠定了重要基础。具身时代来临后他开始将研究重心转到Physical AI上致力于推动具身智能的通用性研究并加入北京中关村学院和中关村人工智能研究院担任具身智能方向的负责人和具身智能实验室主任。在中关村两院开展研究的期间陈凯创办了深度机智这家公司主攻通用具身智能。“通用”这个事情确实难很多人“不敢说”这两个字因为不是在某个特定场景深耕而是朝着通用智能水平提升去努力但陈凯在短时间内就聚集了一个成熟的创始团队。好的基座模型离不开数据这一点基本是“行业共识”了。作为国内率先提出并坚持“人类第一视角数据”的技术leader陈凯深知数据对基模的重要性。我们可以看到在GEN-0验证Scaling Laws之后领域逐渐发现数据的质量和数量同样重要数据一定要“可以用”。贴近人类智能对齐人类与机器的感知逻辑这样的数据才会好用。深度机智一开始就从人类与物理世界的真实交互出发构建了以第一视角、多维度、高质量人类交互数据为核心的数据体系这也是他们不断“供给大脑的营养”。为在扩大数据规模的同时保障数据质量团队采用了轻量化、非侵入式的采集方案无需在手部佩戴任何机械装备即可完整记录操作动作。该方式最大限度地减少了对操作者及环境的影响使数据采集得以深入生产装配、日常家务与科学实验等多样化的真实场景获取更贴近自然状态的高价值数据。除此之外陈凯的团队还构建了一套多模态对齐数据体系让模型更全面地理解物理交互。这样采集的数据包含了人类真实环境下的操作直觉比如力度、执行失误后的调整节省了后期很多需要适配的成本。目前深度机智已在全国建立上百个数据采集点覆盖多元任务环境形成了规模化的数据采集网络已经实现日均超1000小时的人类操作数据采集能力。六具身的通用性不能“本末倒置”通用具身这条路虽然难走但路线是清晰的“必然构建于数据驱动的具备物理常识的基座模型之上”。相比于“短暂的创新”具身真正需要的是能解决基础问题和提供建设基础的方案本末倒置只会南辕北辙。TwinBrainVLA作为深度机智与中关村两院的又一创新成果有力证明了基座通用能力对于具身下游任务的重要价值陈凯博士和他的团队正在沿着增强、保持、使用基座模型通用能力加速前进。随着基模的能力与数据质量、数量的提升也必将不断拉升泛化上限通用性只是时间问题。TwinBrainVLA的核心启示在于在竞逐数据规模之前先审视并革新模型结构可能是通往通用具身一条更本质、更高效的路径。具身求职内推来啦近50家主流具身公司校招社招实习均可国内最大的具身智能全栈学习社区来啦具身智能之心知识星球国内最大的具身智能全栈技术社区来啦推荐阅读从零部署π0,π0.5好用高性价比面向具身科研领域打造的轻量级机械臂工业级真机教程VLA算法实战pi0/pi0.5/GR00T/世界模型等具身智能算法与落地平台来啦国内首个面向科研及工业的全栈具身智能机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~MuJoCo具身智能实战从零基础到强化学习与Sim2Real从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门视觉语言导航的主流方法有哪些是怎么用的1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等