2026/4/17 0:18:34
网站建设
项目流程
建设部网站取消园林资质,西乡县门户网站,抖音代运营公司加盟,做图素材网站开哪个vip好近年来#xff0c;端到端自动驾驶技术逐渐成为行业主流#xff0c;而融合视觉、语言与动作的 VLA#xff08;Vision-Language-Action#xff09;模型则被视为突破传统模块化瓶颈的关键路径。然而#xff0c;依赖模仿学习的 VLA 模型长期受分布偏移、因果混淆等难题制约端到端自动驾驶技术逐渐成为行业主流而融合视觉、语言与动作的 VLAVision-Language-Action模型则被视为突破传统模块化瓶颈的关键路径。然而依赖模仿学习的 VLA 模型长期受分布偏移、因果混淆等难题制约闭环驾驶的安全与泛化能力始终面临挑战。华中科技大学与小米汽车团队近日联合发布了基于在线强化学习的自动驾驶 VLA 框架——MindDrive首次实现了在闭环环境中通过实时交互优化驾驶策略在权威基准测试 Bench2Drive 中刷新同参数模型性能纪录为 VLA 在自动驾驶领域的落地提供了全新的技术范式。论文地址https://arxiv.org/abs/2512.13636v1项目地址https://xiaomi-mlab.github.io/MindDrive/一、传统方法的困境从模仿学习到强化学习的跨越难题当前主流的端到端自动驾驶系统通常由感知、预测、规划等多个模块串联而成虽然在结构化场景表现稳定但缺乏对复杂场景的常识推理与泛化能力。引入视觉语言模型VLM后模型虽具备了一定的推理能力但大多仍基于模仿学习——即通过专家数据拟合驾驶行为。这类方法容易因数据分布偏差和因果混淆在实际闭环驾驶中出现错误累积甚至引发不可逆的安全风险。为突破模仿学习的局限研究者尝试引入强化学习然而自动驾驶的动作空间是连续的轨迹空间直接应用在线强化学习探索效率极低离线强化学习依赖于静态数据集无法与环境交互缺乏对新场景的适应能力传统在线强化学习虽在语言任务中常用但在连续轨迹空间中探索难度大难以生成符合人类驾驶习惯的平滑轨迹。MindDrive 的突破点正在于此通过“语言-动作动态映射”将连续轨迹空间离散化为语言决策空间使强化学习能在语义层面高效探索再借助专门的动作模型将语言决策转化为具体轨迹兼顾推理效率与驾驶拟人性。二、MindDrive 核心设计双专家架构 在线强化学习交互MindDrive 的整体架构包含两个核心组件决策专家与动作专家。两者共享同一视觉编码器与大语言模型基座Qwen2-0.5B仅通过不同的 LoRA 参数进行差异化适配决策专家根据导航指令与多视角视觉输入输出高层语义决策即“元动作”如“左转变道”“减速让行”动作专家依据当前场景与导航指令将元动作转化为具体、平滑的轨迹控制信号。训练流程分为两阶段模仿学习初始化通过大语言模型生成与人工筛选构建高质量的“语言–轨迹”对齐数据使模型初步建立从语言指令到驾驶动作的映射关系为强化学习提供可靠起点。在线强化学习优化在 CARLA 仿真环境中进行闭环交互训练模型根据实时环境反馈持续优化策略。团队设计了稀疏奖励机制成功抵达目的地奖励 1发生碰撞、闯红灯等事件则奖励 -1促使模型学习安全、高效的驾驶行为。该方法首次在自动驾驶 VLA 模型中实现在线强化学习训练通过环境反馈直接提升模型的推理与决策能力。三、实验结果轻量化模型实现 SOTA 性能作者在Bench2Drive数据进行闭环评估测试仅使用 0.5B 参数量轻量化 LLM 的 MindDrive取得了驾驶评分DS78.04成功率SR55.09%性能全面超越同参数模仿学习基线甚至达到与 7B 参数量级模型 ORION 相当的水平同时显著领先于离线强化学习方法 Raw2Drive 及多个现有 VLA 驾驶模型。这表明通过在线交互进行策略优化能极大提升模型在复杂动态环境中的泛化与决策能力且轻量化架构更适合车载部署。研究表明逐步引入不同的惩罚/奖励机制能持续提升模型性能碰撞惩罚使成功率提升1.4%平均能力评分提升3.76%。模型在持续交互的交通流中学会了更主动的避撞策略在超车场景中以4.44%的显著优势超越基准。信号灯惩罚交通标志识别率提升1.52%紧急制动准确率提升8.97%。路线偏离惩罚有助于在驾驶的果断性与谨慎性间达成更优平衡。停车标志惩罚因与停车元动作高度相关显著促进了高效策略学习。在涉及停车标志的并线场景中并线能力提升5.26%安全率提升3.24%。关键洞察MindDrive 无需复杂的奖励工程即可通过在线试错自主发现高效驾驶策略展现出强大的从失败中学习并确定最优动作的能力。定性结果展示图5的定性对比清晰揭示了强化学习阶段的价值仅模仿学习版本展现出强劲的任务特异性能力如及时制动但在动态交互场景如确定最佳变道时机中表现欠佳。强化学习优化后模型能在挑战性场景中选择更稳健、安全且果断的元动作显著提升了高级推理与复杂环境决策能力。结论本文提出了一种名为MindDrive的创新性自动驾驶框架该框架将语言作为在线强化学习RL的接口。MindDrive通过将语言指令映射为动作将探索空间转化为离散语言空间从而降低强化学习成本。该框架还使大型语言模型能够在闭环模拟器中通过动作反馈优化推理能力。我们在提出的在线强化学习训练框架内开展了实验。实验表明MindDrive以轻量级模型实现了业界领先的性能。据我们所知这是首次在交互式模拟器中成功训练视觉-语言-动作协同的自动驾驶模型。我们期待这项工作能为自动驾驶领域提供宝贵启示。局限性。受限于现实世界交互式模拟器的缺失我们的评估仅限于CARLA模拟器[8]。此外同步多个CARLA模拟器的技术挑战阻碍了从相同初始状态评估替代动作的可能性限制了我们对GRPO算法的应用。