视频网站设计与开发广西网站开发公司
2026/3/28 22:13:33 网站建设 项目流程
视频网站设计与开发,广西网站开发公司,北京定制网站建设,微信开放社区当你开车行驶在城市街道上#xff0c;眼睛会自动忽略路边的广告牌、远处的高楼和天空中的云彩#xff0c;而把注意力集中在前方的车辆、行人、红绿灯和车道线上。这种人类与生俱来的选择性注意能力#xff0c;恰恰是目前自动驾驶AI最欠缺的技能之一。来自北京大…当你开车行驶在城市街道上眼睛会自动忽略路边的广告牌、远处的高楼和天空中的云彩而把注意力集中在前方的车辆、行人、红绿灯和车道线上。这种人类与生俱来的选择性注意能力恰恰是目前自动驾驶AI最欠缺的技能之一。来自北京大学多媒体信息处理国家重点实验室和小鹏汽车的研究团队发布了一项重要研究成果提出了一种名为FastDriveVLA的创新框架让自动驾驶AI能够像人类司机一样学会在纷繁复杂的道路场景中快速识别并聚焦于真正重要的视觉信息。这项研究的核心突破在于通过一种巧妙的图像重建训练方法研究团队开发出了一个极其轻量级的视觉筛选器它能够像经验丰富的老司机一样在看到道路画面的瞬间就判断出哪些信息值得关注、哪些可以忽略。更重要的是这个筛选器一旦训练完成就可以像USB设备一样即插即用地安装到各种自动驾驶系统中无需对原有系统做任何重新训练。在nuScenes这个权威的自动驾驶测试基准上FastDriveVLA不仅将视觉处理速度提升了7倍以上在某些配置下甚至比不做任何精简的原始模型表现得更好——这个看似矛盾的结果恰恰印证了一个深刻的道理少即是多专注才能卓越。为什么自动驾驶AI需要学会做减法要理解这项研究的价值我们需要先了解当前自动驾驶AI面临的一个核心困境。近年来一种被称为视觉-语言-动作模型简称VLA模型的技术在自动驾驶领域掀起了革命。这种模型借鉴了ChatGPT等大型语言模型的架构能够同时理解视觉图像和自然语言指令并据此生成驾驶动作。相比传统的模块化自动驾驶系统——需要分别处理感知、预测和规划三个环节——VLA模型实现了真正的端到端学习从摄像头看到的原始画面直接输出方向盘转角和油门刹车指令中间不需要任何人工设定的规则。这种一体化设计带来了两个显著优势。其一它消除了传统系统中模块之间的信息断层——当感知模块把三维空间中的车辆误认为是广告牌时这个错误会像多米诺骨牌一样传导到后续的每一个模块最终导致整个系统做出危险决策。端到端模型则让所有这些翻译过程在一个统一的神经网络内部完成减少了误差累积的机会。其二这种设计大大简化了系统架构使得工程师可以专注于收集更多高质量的驾驶数据而不是在各个模块的接口处修修补补。然而VLA模型有一个致命的软肋它们太贪心了。为了充分理解一幅道路场景图像这类模型通常会把图像切割成数千个小块每个小块都会被转换成一个视觉令牌类似于语言模型处理文字时的单词概念。以本研究采用的Impromptu-VLA模型为例一张分辨率为1596×1596的道路图像会产生多达3249个视觉令牌。这意味着什么呢用一个形象的比喻来说如果把AI处理每个令牌的工作比作阅读一个汉字那么这个AI每看一眼前方道路就要阅读相当于一篇3000多字文章的信息量。问题在于这3000多个汉字中真正与驾驶决策相关的可能只有几百个——那些表示车辆、行人、车道线、红绿灯的部分。剩下的大部分信息都在描述天空有多蓝、路边的树叶有多绿、远处的建筑是什么风格这些与安全驾驶毫无关系的内容。但AI并不天然知道这一点它会老老实实地把每一个令牌都认真读一遍耗费了大量的计算资源和时间。在实验室环境下这种过度阅读或许还可以容忍。但在真实的自动驾驶场景中每一毫秒的延迟都可能意味着生死之差。当车辆以每小时60公里的速度行驶时50毫秒的延迟意味着车辆会在AI思考的时间里向前冲出近1米。如果前方突然有行人闯入这1米的距离可能就是能否及时刹住车的关键。因此如何让VLA模型学会抓重点——在保证驾驶安全的前提下大幅减少需要处理的视觉令牌数量——就成了一个迫在眉睫的技术难题。现有方案为何在自动驾驶场景中水土不服在FastDriveVLA出现之前研究者们已经提出了多种减少视觉令牌的方法但这些方法在自动驾驶这个特殊领域都表现不佳。第一类方法被称为基于注意力的剪枝。这类方法的核心思想是既然VLA模型内部本来就有一个注意力机制——用来判断视觉信息和文字指令之间的相关性——那为什么不直接利用这个机制来筛选重要的视觉令牌呢具体来说这些方法会观察模型在处理用户指令比如预测未来3秒的行车轨迹时哪些视觉令牌得到了更多的关注然后保留这些被关注的令牌丢弃那些被忽视的。FastV和SparseVLM是这类方法的典型代表。这个思路在处理类似图片里有几只猫这样的视觉问答任务时效果很好因为用户的问题猫和图片中的关键内容猫的图像之间有非常直接的语义关联。但在自动驾驶场景中这种关联就变得非常薄弱了。想象一下自动驾驶AI收到的指令通常是什么无非是规划未来行车路径或者预测下一步的驾驶动作这样固定且抽象的句子。这些文字和具体的道路场景之间几乎没有什么可以配对的元素——规划这个词既不会让AI更关注红绿灯也不会让它更注意路边的行人。结果就是基于注意力的方法在自动驾驶任务中几乎成了瞎指挥它选中的令牌往往并不是真正重要的那些。第二类方法被称为基于相似度的剪枝。这类方法的逻辑完全不同它假设图像中相似的区域是冗余的因此应该尽量保留那些不同的视觉令牌以覆盖图像中尽可能多样化的信息。VisPruner和DivPrune采用的就是这种策略。打个比方如果把视觉令牌想象成一盒彩色糖果这类方法的目标是挑出颜色尽可能不重复的糖果确保每种颜色都有代表。在处理内容丰富但没有明确重点的图像时这种求异策略确实能够较好地保留全局信息。但自动驾驶场景恰恰是有非常明确重点的——那些与行车安全相关的前景区域车道、车辆、行人等远比其他区域重要得多。基于相似度的方法并不理解这种重要性的差异它可能会认为天空中的一朵特殊形状的云彩和路面上的一个普通车辆同样独特于是保留了云彩而丢弃了车辆。在计算资源有限的情况下这种不分轻重的筛选策略显然会损害驾驶安全。更糟糕的是还有一些方法试图通过设计新的多模态投影器来从源头上压缩视觉令牌的数量。这类方法虽然可能效果不错但有一个致命的缺陷它们需要对整个VLA模型进行重新训练。考虑到当前顶尖VLA模型的训练成本——动辄需要数十块高端GPU运行数周时间——这种方案在实际应用中几乎不可行。FastDriveVLA的核心洞见让AI学会看重点FastDriveVLA的创新来自一个非常符合直觉的观察人类司机是如何开车的当你手握方向盘行驶在公路上时你的视觉系统并不是在平等地处理视野中的每一个像素。相反你的注意力会高度集中在那些对驾驶决策至关重要的区域——前方车辆的位置和速度、路面上的车道标线、交通信号灯的颜色、可能穿过马路的行人。与此同时远处的山峦、路边的广告牌、天空中的飞鸟——这些信息虽然也进入了你的视网膜但大脑几乎不会对它们进行深入处理。即使突然有人把你眼前的天空换成完全不同的颜色你可能都不会注意到因为那根本不在你的关注雷达范围内。研究团队将这种人类的注意力分配模式总结为一个简洁的原则在自动驾驶场景中前景信息包括人、道路、车辆、交通标志和交通障碍物对驾驶决策至关重要而背景信息建筑物、天空、路边树木等则基本可以忽略。如果能让AI也学会这种重点筛选能力就可以在大幅减少计算量的同时保持甚至提高驾驶性能。但如何让AI学会区分前景和背景呢研究团队想到了一个巧妙的方法图像重建。想象你是一位艺术系的学生老师给你看了一幅城市街景照片几秒钟然后要求你仅凭记忆把它画出来。由于时间有限你不可能记住画面中的每一个细节只能优先记住那些最重要、最显眼的元素。如果你的任务是尽可能准确地画出街道上的所有车辆和行人那么你的注意力自然会集中在这些前景物体上而忽略背景中的建筑细节。这个过程中需要重建什么这个任务本身就在隐式地教会你应该关注什么。FastDriveVLA正是利用了这个原理。研究团队设计了一个轻量级的视觉令牌筛选器给它取名叫ReconPruner重建剪枝器。这个筛选器的工作方式是首先给每个视觉令牌打一个重要性分数然后只保留分数最高的那些令牌尝试用这些令牌来重建原始图像的前景区域。如果重建出来的前景画面和原图很接近说明这些高分令牌确实包含了前景的关键信息如果重建效果很差说明筛选器看走了眼遗漏了重要的前景令牌。通过不断调整打分策略筛选器逐渐学会了把高分给予那些真正承载前景信息的令牌。这种训练方式借鉴了计算机视觉领域一种叫做掩码自编码器MAE的技术。在MAE中模型需要从被部分遮挡的图像中恢复出完整图像这个过程迫使模型学习图像的本质结构特征。FastDriveVLA把这个思想应用到了视觉令牌筛选上让筛选器选出的令牌来重建前景就相当于在训练筛选器找出真正重要的视觉信息。对抗训练策略防止AI偷懒然而仅仅要求筛选器重建前景还不够。研究团队在实验中发现了一个有趣的问题如果只用前景重建质量来训练筛选器它会学会一种投机取巧的策略——给所有视觉令牌都打高分。这样一来虽然前景重建的效果会很好因为前景信息肯定都被保留了但筛选器就完全失去了筛选的意义我们还是要处理全部的视觉令牌。用一个生活化的比喻来解释这个现象假设你是一个公司的HR老板让你从100份简历中筛选出最优秀的10位候选人来面试。如果老板只根据被选中的人有多优秀来评估你的工作你可能会干脆把所有100份简历都递上去——反正最优秀的那几位肯定在里面你的KPI稳稳达成。但这显然违背了筛选的初衷。为了防止ReconPruner学会这种偷懒策略研究团队引入了一个对抗性前景-背景重建策略。这个策略的核心是不仅要求用高分令牌重建前景还要求用低分令牌重建背景。也就是说筛选器不仅要能选对重要的令牌还要能排除不重要的令牌——那些被打了低分的令牌应该主要包含背景信息用它们来重建背景应该也有不错的效果。这种双向约束彻底堵死了偷懒的路。如果筛选器给所有令牌都打高分那就没有令牌来重建背景了背景重建任务会彻底失败。如果筛选器给所有令牌都打低分前景重建任务又会失败。只有真正学会区分前景和背景两个任务才能同时完成得很好。这种设计灵感来自于著名的生成对抗网络GAN思想。在GAN中两个神经网络相互对抗——一个负责生成假图片另一个负责辨别真假——正是这种对抗让生成器越来越擅长制作以假乱真的图像。FastDriveVLA借用了这种在对抗中成长的理念通过前景和背景重建任务的相互制约让筛选器的判断能力不断精进。nuScenes-FG数据集为AI标记道路上的重点区域俗话说巧妇难为无米之炊再好的算法也需要高质量的数据来训练。为了教会ReconPruner区分前景和背景研究团队首先需要大量标注了前景区域的自动驾驶场景图像。nuScenes是自动驾驶研究领域最权威的公开数据集之一包含1000个驾驶场景、六个摄像头视角的完整记录。然而nuScenes原有的标注主要是车辆和行人的三维包围盒——也就是在三维空间中用一个立方体框住目标物体。这种标注方式有一个问题包围盒是粗略的它不仅包含了目标物体本身还包含了目标周围的一些背景区域。而且nuScenes的地图扩展包虽然提供了11类语义标注但仍然无法覆盖所有与驾驶相关的前景要素。为了解决这个问题研究团队利用最新的Grounded-SAM技术对整个nuScenes数据集进行了精细的前景分割标注。Grounded-SAM是一种结合了语言理解和图像分割能力的AI工具它可以根据文字描述如道路、车辆、行人等自动在图像中勾勒出对应物体的精确轮廓比传统的包围盒标注精细得多。研究团队将自动驾驶场景中的前景定义为五类人、道路、车辆、交通标志包括红绿灯和交通障碍物如路面上的障碍墩、施工护栏等。其他区域——建筑物、天空、树木等——则被归类为背景。基于这个定义他们使用Grounded-SAM对nuScenes的全部场景进行了处理最终得到了一个包含24.1万张图像-掩码对的大规模数据集并将其命名为nuScenes-FGFG代表Foreground即前景。nuScenes-FG数据集涵盖了六个摄像头视角前、后、左前、右前、左后、右后每张图像都配有精确的像素级前景标注。这意味着AI可以准确地知道图像中的每一个像素是属于前景还是背景为ReconPruner的训练提供了理想的监督信号。研究团队表示这个数据集也将开放给其他研究者使用有望推动自动驾驶前景感知领域的进一步发展。ReconPruner的技术架构小身材大能量ReconPruner的设计充分体现了轻量高效的理念。它的整体参数量只有0.07亿700万相比动辄数十亿参数的VLA主模型简直是九牛一毛。这种轻量级设计确保了筛选过程本身不会成为新的计算瓶颈。ReconPruner由两个核心组件构成PrunerLayer剪枝层和Scorer评分器。PrunerLayer的作用是让视觉令牌之间交流信息为后续的评分做准备。它采用的是Qwen2.5-VL-3B模型中单个解码层的结构——这是目前性能优异的视觉语言模型之一。在PrunerLayer中研究团队引入了一个特殊的查询令牌这个令牌就像一个侦察兵它的任务是在与所有视觉令牌交互的过程中探测出整个场景中哪些区域包含前景信息。具体来说查询令牌和所有视觉令牌一起被送入PrunerLayer通过注意力机制进行信息融合。处理完成后每个视觉令牌都会吸收一部分来自查询令牌的信息这些信息编码了这个令牌与前景区域相关程度的判断。接下来Scorer登场了。Scorer是一个极其简单的单层前馈网络它接收PrunerLayer的输出为每个视觉令牌计算一个显著性分数——分数越高表示这个令牌越可能包含重要的前景信息。这个评分过程通过一个数学运算叫做Hadamard乘积来实现将每个视觉令牌与查询令牌逐元素相乘然后通过Scorer输出一个标量分数。在训练阶段ReconPruner会根据显著性分数将视觉令牌分为两组高分组和低分组。高分组的令牌被送入重建解码器来重建前景图像低分组的令牌则被用来重建背景图像。重建解码器由六层Qwen2.5-VL-3B解码层和一个前馈重建头组成。通过比较重建图像与真实图像的差异系统可以计算出重建损失这个损失信号会反向传播回ReconPruner指导它调整评分策略。重建损失的计算结合了两种常用的图像质量评估指标均方误差MSE和结构相似性指数SSIM。MSE关注的是像素级的精确匹配而SSIM则更注重人眼感知的结构相似性。研究团队发现将这两种损失以2:8的比例组合可以获得最好的训练效果。前景重建损失和背景重建损失则以1:1的比例相加确保筛选器不会偏向任何一方。值得一提的是训练过程中有一个技术细节需要特别处理根据显著性分数将令牌分组是一个非连续的操作——分数高于某个阈值的归入高分组否则归入低分组。这种非连续操作会阻断梯度的反向传播让神经网络无法通过常规方法学习。为了解决这个问题研究团队采用了直通估计器STE技术在前向计算时使用真正的离散分组在反向传播时则用连续的近似值来传递梯度。这是深度学习中处理离散操作的标准技巧。推理阶段即插即用的效率提升ReconPruner最吸引人的特性之一是它的即插即用能力。一旦训练完成它可以无缝地插入到任何使用相同视觉编码器的VLA模型中而不需要对这些模型进行任何额外的训练或微调。在推理阶段工作流程非常简洁。首先道路图像被送入VLA模型的视觉编码器产生大量的视觉令牌比如前面提到的3249个。接着ReconPruner对这些令牌进行评分根据预设的剪枝比例比如保留50%选出显著性分数最高的那些令牌。最后只有被选中的令牌会被送入VLA模型的语言模型部分进行后续处理生成驾驶动作预测。这个过程中有一个细节值得注意为了保持被选中令牌的空间语义信息ReconPruner会同时保留它们对应的位置编码。位置编码是Transformer架构中的关键组成部分它告诉模型每个令牌在原始图像中的位置。如果丢失了位置信息模型就无法知道前方有一辆车到底是在画面的左边还是右边这对于驾驶决策来说是灾难性的。实际部署时研究团队推荐使用50%的剪枝比例——也就是保留一半的视觉令牌。这个比例在各项性能指标上实现了最好的平衡既获得了显著的效率提升又几乎没有损失驾驶性能。研究团队也测试了25%和75%的剪枝比例25%的剪枝相对保守效率提升有限但性能几乎无损甚至略有提升75%的剪枝则比较激进效率大幅提升但会带来一定的性能下降。由于自动驾驶是安全关键型应用研究团队建议在实际部署时优先考虑性能保障不宜使用过于激进的剪枝策略。实验结果全面超越现有方法研究团队在nuScenes数据集上对FastDriveVLA进行了全面评估并与现有的主流视觉令牌剪枝方法进行了对比。基准模型选用的是Impromptu-VLA——目前公认性能最强的端到端自动驾驶VLA模型之一它基于Qwen2.5-VL架构构建。评估采用的是开环规划范式测试数据集包含6019个样本。研究团队使用三个核心指标来衡量模型性能轨迹预测的L2误差预测轨迹与真实轨迹之间的欧氏距离单位为厘米、碰撞率预测轨迹与其他道路使用者发生碰撞的概率、以及越界率预测轨迹驶出道路边界的概率。这三个指标都是越低越好的类型。对比的基线方法包括两类基于注意力的FastV和SparseVLM以及基于相似度的VisPruner和DivPrune。这四种方法都发表在顶级学术会议上ECCV、ICML、ICCV、CVPR代表了当前的技术前沿。实验结果令人印象深刻。在保留75%视觉令牌剪枝25%的设置下FastDriveVLA在所有三项指标上都超过了全部基线方法。更令人惊喜的是它在L2误差和越界率这两项指标上甚至比完全不做剪枝的原始Impromptu-VLA模型还要好——L2误差从31.83厘米降低到31.80厘米越界率从2.80%降低到2.77%。这个负剪枝效应有力地证明了研究团队的核心假设专注于前景视觉信息不仅不会损害性能反而有助于模型做出更好的决策。那些被剪掉的背景令牌实际上一直在干扰模型去除它们反而让模型的注意力更加集中。在保留50%视觉令牌的设置下FastDriveVLA继续保持全面领先平均L2误差为32.10厘米碰撞率为0.25%越界率为2.94%。与原始模型相比这些数字意味着FastDriveVLA只用一半的视觉信息就保持了超过99%的轨迹预测精度、97%的碰撞避免能力和95%的道路边界遵守能力。考虑到计算量的大幅下降这是一个非常出色的权衡。即使在激进的75%剪枝设置下只保留25%的视觉令牌FastDriveVLA的优势依然明显。它的平均L2误差为32.64厘米而四种基线方法的最优值为32.77厘米碰撞率为0.29%而基线最优值为0.31%越界率为2.91%而基线最优值为2.93%。虽然性能相比保守剪枝有所下降但FastDriveVLA始终是表现最好的方法。效率分析速度提升看得见除了性能指标研究团队还对各种剪枝方法的计算效率进行了详细分析。当视觉令牌从3249个减少到812个剪枝75%时FastDriveVLA的浮点运算次数FLOPs从38.2万亿次降低到5.1万亿次减少了约7.5倍。这意味着AI的思考量减少到了原来的七分之一左右。更直观的是实际运行时间的变化。在GPU上测量的预填充时间AI首次看到图像到开始生成输出之间的延迟从187毫秒降低到51毫秒加速了约3.7倍。解码时间生成每个输出令牌所需的时间从23毫秒降低到18毫秒加速了约1.3倍。预填充时间的大幅降低对自动驾驶尤其重要因为这直接决定了系统对新路况的响应速度。有趣的是虽然FastDriveVLA引入了一个额外的参数化筛选器ReconPruner理论上会增加一些计算开销但由于ReconPruner的设计极其轻量加上它带来的令牌数量大幅减少总体效率反而比一些无参数的剪枝方法更高。这体现了研究团队在架构设计上的精妙考量。消融实验每个设计都有其必要性为了验证FastDriveVLA各个组成部分的贡献研究团队进行了一系列消融实验。首先他们测试了用前景掩码预测代替像素重建的效果。前景掩码预测是一种更简单的训练目标让筛选器学习预测每个视觉令牌是属于前景还是背景而不是去重建图像内容。实验结果显示这种简化方案在所有指标上都不如像素重建。研究团队分析认为掩码预测只提供了二元的是/否监督信号无法区分前景区域内各个令牌的重要性差异——一个包含模糊路面纹理的令牌和一个包含清晰车辆轮廓的令牌会被同等对待。而像素重建任务则隐式地对不同复杂度的视觉内容赋予了不同的权重复杂且信息丰富的区域如车辆如果被遗漏重建误差会很大简单的均匀区域如路面即使被遗漏重建误差也相对较小。其次他们测试了移除对抗性前景-背景重建策略的影响——也就是只进行前景重建训练不要求低分令牌重建背景。这个配置的性能下降更为明显证实了前文分析的偷懒问题确实存在没有背景重建的约束筛选器倾向于给更多令牌打高分失去了有效区分前景和背景的能力。另一组有趣的实验是将FastDriveVLA与直接使用前景掩码剪枝进行对比。既然研究团队已经建立了nuScenes-FG数据集为什么不直接把前景掩码缩放到视觉令牌的分辨率然后根据掩码来决定保留哪些令牌呢这看起来是一个简单直接的方案。实验结果显示基于掩码的剪枝确实比纯粹基于文本注意力的剪枝有所改进证明了前景令牌更重要这个假设是正确的。但FastDriveVLA的效果仍然更好。研究团队指出了两个原因第一前景掩码只提供二元判断无法对不同令牌的重要性进行细粒度排序因此难以适应不同的剪枝比例需求第二更重要的是视觉编码器产生的视觉令牌与原始图像之间存在空间错位——这是Vision Transformer架构的一个已知问题令牌的感受野并不精确对应图像中的特定区域。直接用图像级的掩码来筛选令牌会引入系统性的偏差而FastDriveVLA通过端到端学习回避了这个问题。此外使用Grounded-SAM在线生成前景掩码还有一个实际困难每张图像的处理大约需要3秒这对于实时驾驶系统来说是无法接受的延迟。而训练好的ReconPruner可以在毫秒级时间内完成令牌评分完全满足实时性要求。可视化分析看看AI到底在关注什么为了直观展示FastDriveVLA的效果研究团队提供了丰富的可视化结果。在前景和背景重建的可视化中可以清晰地看到ReconPruner的工作效果。给定一张道路场景输入图像ReconPruner选出的高分令牌能够重建出包含车道线、车辆、交通标志等元素的前景图像而低分令牌重建出的则是去除了这些前景元素的背景图像——主要是天空、建筑物和路边植被。两张重建图像几乎完美互补说明ReconPruner确实学会了精准区分前景和背景。在与其他方法的对比可视化中差异更加明显。FastV基于注意力的方法选择保留的视觉令牌分布比较零散而且明显遗漏了图像中的部分车辆——这对于自动驾驶来说是致命的疏忽。DivPrune基于相似度的方法保留的令牌虽然数量不少但空间分布过于分散对车道区域的覆盖不够集中可能影响轨迹规划的准确性。相比之下FastDriveVLA选择的令牌高度聚焦在车道线、前方车辆、交通标志等关键区域分布紧凑而有序与人类司机的注意力模式高度吻合。至顶AI实验室洞见尽管FastDriveVLA取得了优异的性能研究团队也坦诚地讨论了当前工作的一些局限性。首先ReconPruner的训练依赖于预先定义的前景概念。虽然研究团队的定义覆盖了大多数驾驶相关要素但在某些特殊场景下可能不够全面。例如道路施工现场的临时标识、动物穿越马路、或者极端天气条件下的特殊视觉线索可能并不完全符合人、车、路、标志、障碍物这五类定义。未来的工作可以考虑引入更灵活的前景定义机制或者让模型自适应地学习场景相关的重要性判断。其次当前的评估主要基于开环规划指标也就是在固定的测试样本上比较预测轨迹与真实轨迹的差异。虽然这是自动驾驶研究中广泛使用的评估范式但它无法完全反映系统在真实闭环驾驶中的表现——在闭环场景中车辆的实际运动会影响后续的感知输入形成复杂的反馈循环。研究团队表示后续会在更接近真实场景的闭环仿真环境中进一步验证FastDriveVLA的效果。第三虽然FastDriveVLA的即插即用特性是一大优势但它目前仅限于使用相同视觉编码器的VLA模型。如果未来出现了采用全新视觉编码器架构的模型可能需要为新架构重新训练ReconPruner。不过由于ReconPruner的训练成本很低只需要两块H800 GPU训练3小时这个限制在实际中并不算严重。这项研究最重要的贡献可能不在于具体的技术方案而在于它揭示的深层道理有时候少确实就是多。在自动驾驶这样的复杂任务中让AI学会忽略无关信息与让它学会理解重要信息同等重要。FastDriveVLA用一种优雅的方式实现了这个目标为高效、安全的自动驾驶系统开辟了新的可能。对于普通人来说这项研究意味着未来的自动驾驶汽车可能会变得更加聪明——不是因为它们能处理更多的信息而是因为它们学会了像人类老司机一样知道什么时候该关注什么什么信息可以安全地忽略。这种智慧的专注或许正是通往真正可靠自动驾驶的关键一步。END本文来自至顶AI实验室一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破挖掘其潜在的应用场景为企业和个人提供切实可行的解决方案。QAQ1FastDriveVLA是什么AFastDriveVLA是北京大学和小鹏汽车联合开发的一种自动驾驶AI加速框架。它通过一个名为ReconPruner的轻量级视觉令牌筛选器让自动驾驶系统学会像人类司机一样只关注道路上的重要信息如车辆、行人、车道线、交通标志自动过滤掉不重要的背景信息从而在保持甚至提升驾驶性能的同时将视觉处理速度提升约7倍。Q2ReconPruner为什么能准确区分道路上的重要和不重要信息AReconPruner采用了一种独特的图像重建训练方法。它被要求用高分令牌重建前景车辆、道路等同时用低分令牌重建背景天空、建筑等。这种双向约束迫使它精准学习什么是重要信息。如果分类错误重建质量就会明显下降系统会据此不断调整评分策略。Q3nuScenes-FG数据集包含哪些内容AnuScenes-FG是研究团队专门为训练ReconPruner构建的大规模数据集包含24.1万张图像及其配套的前景分割标注。数据涵盖六个摄像头视角每张图像都精确标注了五类前景要素人、道路、车辆、交通标志和交通障碍物。该数据集将对外开放供自动驾驶研究者使用。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询