2026/6/1 7:19:29
网站建设
项目流程
公司宣传网站建设,注册域名后怎么建站,网络运营公司的经营范围,让百度收录网站Mini3DV是三维视觉专委会打造的小型精品学术研讨会#xff0c;旨在深入探讨三维视觉相关领域的前沿问题#xff0c;为学术前沿探索和产学研用提供新方向和新思路。第二届中国三维视觉前沿研讨会#xff08;Mini3DV2025#xff09;于2025年10月18-19日金秋时节在北京雁栖湖畔…Mini3DV是三维视觉专委会打造的小型精品学术研讨会旨在深入探讨三维视觉相关领域的前沿问题为学术前沿探索和产学研用提供新方向和新思路。第二届中国三维视觉前沿研讨会Mini3DV2025于2025年10月18-19日金秋时节在北京雁栖湖畔成功举办。本次会议的合作单位包括华为引望、诺亦腾机器人、字节跳动。会会议期间来自学术界与工业界的60余位专家围绕三维视觉前沿研究问题开展探讨和交流在三维重建与生成、空间智能与世界模型、具身智能等专题上分享报告和展开讨论同时就当前三维视觉、空间智能、世界模型、具身智能等热点疑难问题展开深入研讨并形成共识意见。左右滑动查看更多本次会议所有内容将分7篇文章发布讲者报告三维重建与生成部分10月30日讲者报告空间智能与世界模型部分10月31日讲者报告具身智能部分11月1日观点总结世界模型前沿进展与技术展望12月17日观点总结具身智能前沿与展望今日发布观点总结三维重建与生成部分近期发布年度总结报告近期发布Mini3DV2025 会议上全体参会成员研讨了具身智能的前沿问题与发展趋势形成了对具身智能的关键共识。在此基础上由穆尧上海交大、赵昊清华、胡瑞珍深大、张力复旦、李弘扬香港大学、杨蛟龙微软亚研院、王靖博上海AI Lab、韩磊诺亦腾机器人、苏永峰引望、徐凯国防科大、杨易浙大、李江引望、戴若犁上海诺亦腾、卞红林引望、陈宝权北大、刘烨斌清华、弋力清华参与整理并撰写“具身智能前沿与展望数据、模型与系统演进”观点报告。具身智能前沿与展望数据、模型与系统演进具身智能正站在人工智能发展的关键路口。过去十余年AI在计算机视觉与大语言模型领域的突破主要依赖于“大规模数据预训练规模定律Scaling Law”的成功范式。然而当我们将目光转向具身智能——让智能体在物理世界中感知、理解并行动——这一范式的直接迁移却遭遇了数据异构性、物理约束强及交互昂贵等前所未有的挑战。因此如何构建高效的具身数据形态、设计能够理解时空连续性的模型架构、以及打造适应复杂任务的具身系统成为了当前学术界与产业界共同探索的前沿课题。本文旨在全面梳理具身智能当前的技术演进重点围绕数据、模型、系统与评测四大维度展开深度剖析在数据层面“数据金字塔”成为重要的发展趋势即具身系统不再单纯依赖昂贵的真机遥操数据而是通过底层的仿真与互联网视频构建物理常识与语义理解利用中层的人类交互数据作为行为映射的桥梁最终通过顶层的少量真机数据实现技能的落地。在模型层面文章探讨了主流的视觉-语言-动作模型VLA在规模扩展上遇到的瓶颈并指出了“世界模型”作为具身预训练新出路的潜力。世界模型通过模拟环境动力学与预演未来有望赋予机器人更深层的物理直觉与泛化能力。在系统层面本文观察到具身架构正从单一的端到端模型向类计算机操作系统的“分层架构”演进。通过解耦高层语义规划与底层运动控制未来的机器人系统将具备更强的跨本体迁移能力与长程任务执行力。最后本文还将审视当前评测体系面临的真实性与可复现性挑战。通过对这些关键节点的探讨我们期望能为通向具身通用人工智能的路径提供清晰的注脚与思考。一、数据从“把地球遥操一遍”到数据金字塔大语言模型的成功建立在一个朴素的假设之上用全世界的文本数据训练一个模型便可实现通用泛化。然而类比到具身智能这意味着我们需要所有的机器人在所有的任务上遥操一遍——显然这是不可能完成的任务。问题的本质不在于数据总量不够而在于我们尚未找到能够支撑具身预训练的有效数据形态。当前一种分层的“数据金字塔”结构正在形成它重新定义了不同数据源在智能体学习中的定位。图 1. 数据金字塔1.1 基座层互联网视频与仿真合成数据互联网视频与仿真合成数据处于金字塔底层规模最为庞大包含极其丰富的物理常识、物体语义和长尾场景。一方面面对真实数据昂贵且危险的局限仿真合成数据正在经历从“手工搭建”到“生成式演进”的范式变革。 传统的仿真数据主要作为学习基础物理交互如“松手物体会下落”、“如何保持平衡”的低成本来源而前沿的合成数据管线正通过与生成式AI的深度融合解决“多样性”与“保真度”的双重瓶颈。例如利用生成式AI将互联网海量数据转化为仿真资产如Genmanip构建出无穷变化的“生成式环境”将互联网数据的语义多样性注入仿真训练同时建立由多模态大模型驱动的“生成-执行-评估-修正”闭环如RoboTwin, InternData-A1打造无需人工干预的“自进化数据工厂”。这种方式能够批量产出兼具物理可行性与高层语义逻辑的专家级轨迹极大地提升了仿真数据在复杂长程任务中的有效性使其不再仅仅是真实数据的“平替”而是连接虚拟与现实的重要桥梁。另一方面互联网视频在场景、物体、技能等维度的多样性远超任何真机数据集是一直以来被低估的数据金矿。微软亚洲研究院的VITRALi Qixiu, et al.等研究表明互联网上的人类视频蕴含了极丰富的场景语义和物体知识通过将“人手”视为机器人末端利用三维视觉技术构建数据管线可将海量视频转化为结构化的VLAVision-Language-Action数据。基于此类数据预训练的模型在未见过的真实家庭场景中展现出了惊人的零样本泛化能力——例如模型能自发学会“抓瓶子时手指微张捏铅笔时两指并拢”的通用操作逻辑。此外仿真合成数据、互联网视频数据等也在构筑世界模型、赋能具身推理方面展现出了巨大潜力成为具身数据金字塔的基座。1.2 桥梁层人类交互数据这一层包括第一视角人类交互数据与人体动捕数据聚焦于解决机器人如何像人一样交互的问题是连接抽象语义与具体控制的桥梁。首先轻量级in-the-wild的第一视角人类交互数据可突破实验室笼子以轻便的AI眼镜、可穿戴手环如Apple Vision Pro等方式在真实世界中采集达到中等数据规模更贴近未来大模型所需的数据密度与多样性。UCSD王小龙老师团队的Open-TeleVisionCheng Xuxin, et al.和AnyteleopQin Yuzhe, et al.直接利用人本位数据进行训练无需绑定特定真机通过关键点对齐与姿态重定向把末端信息映射到人形机器人上实现human-centric与robot-centric数据的联合训练。其次动捕环境中的高精度人-环境交互数据可以在严格可控的环境中获得类真值级别的标注与多模态信号包括力/触觉/视觉/听觉/高精度目标位置等。相较真机遥操作数据采集效率可提升1-2个数量级因为摆脱了对具体真机的强绑定还能系统化地做多目标与大空间覆盖。1.3 顶层真机遥操作数据位于金字塔顶端数据直接绑定机器人真机包含真实的物理反馈与特定本体的动力学特征。优点是数据直接绑定真机末端量化指标清晰适合行为克隆或监督学习。但也存在天然约束必须依赖真实本体操作者受视角和交互方式限制采集过程不够自然效率偏低且成本极高。近年来不少厂商和研究机构的做法是建设“机器人数据工厂”如智元的AgiBot World ColosseoBu Qingwen, et al.以集中化、流水线的方式规模化采集。然而采集环境往往被简化为桌面摆放若干物体的场景与复杂的真实家庭等开放环境存在明显差距——这种差距不仅体现在环境布置与外观上更包括物体多样性、任务复杂度、技能组合与层级结构的缺失。总体来看遥操数据规模最小也最昂贵往往用于最终的技能落地与“最后一公里”的精度打磨。1.4 理想数据通路基于上述金字塔结构理想的数据使用路径并非简单的混合而是一个从底向上的渐进学习过程。首先利用仿真合成数据与互联网视频进行大规模预训练。仿真数据让模型学习基础的物理交互平衡感、接触感互联网视频赋予模型对开放世界物体的语义理解能力。其次引入人类交互数据。通过重定向Retargeting技术将人类的灵巧操作映射到机器人空间。这一步不仅是为了学习完成任务更是为了学习“合理的运动流形”避免机器人出现怪异、危险的动作。最后使用真机遥操作数据进行微调并持续从真机经验中学习。此时模型已具备常识与动作先验只需极少量的真机数据即可将策略“坍缩”到具体的机器人本体上实现从“通用智能”到“专用具身”的跨越并在持续学习中不断完善自身能力。图 2. 数据混合通路在视觉主导的金字塔之外触觉与力觉数据的缺失是当前具身智能迈向“精细操作”的最大隐痛。物理世界的本质不仅是“看”更是“接触”。受限于当前触觉传感器如GelSight、电子皮肤的非标与高昂成本相关数据极度稀缺。未来构建包含力/触觉的大规模多模态数据集将是必经之路只有补齐这一维度模型才能真正理解摩擦力与柔性形变实现从简单的“轨迹模仿”到具备真正物理交互智慧如盲操作、防滑控制的质变。二、 模型VLA与世界模型的融合演进2.1 VLA的困境规模定律的缺席视觉-语言-动作模型VLA是当前具身智能的主流路线其基本思路是沿用视觉语言模型VLM的预训练方式将连续动作离散化后进行下一个token预测。然而一个颇具讽刺意味的现象是从最早70亿参数的Open VLA到后来的pi026亿参数再到pi0.5及字节、自变量等团队的模型均在20-30亿参数左右由于大模型在小数据量训练易过拟合参数规模不升反降具身智能目前尚未找到属于自己的规模定律。VLA路线面临的核心困境在于它严重依赖真机数据进行预训练而真机数据存在规模不足、模态不统一、本体差异大等问题导致难以扩展。更本质的是VLA沿用VLM的思路做序列预测缺乏对物理世界时空连续性的深刻理解。为此引入三维/四维时空先验如4D-VLAZhang Jiahui, et al.、DreamVLAZhang wenyao, et al.、SpatialForcingLi Fuhao, et al.等改进措施正成为增强VLA模型空间推理能力的重要方向。图 3. VLA与世界模型的融合2.2 世界模型具身训练的新出路在此背景下世界模型辅助具身学习作为一种新的技术路线正在崭露头角。具体而言在具身智能中世界模型可以被视作一种通用“仿真器”它能够根据当前的观测或状态在不同的操控行为下预演未来。从控制论视角来看世界模型可作狭义界定对“被控系统”进行描述的动力学模型其核心能力是“预测”——而预测正是规划与控制的前提。从VPPHu Yucheng, et al.到Genie-EnvisionerLiao Yue, et al.再到宇树开源的世界模型UnifoLM-WMA-0基本思路都是“视频生成模型动作头”整个领域似乎正在转向将世界模型与VLA相结合的路线。相关探讨可参考Mini3DV观点报告《世界模型前沿进展与技术展望从视频生成到物理感知的仿真》。世界模型相对传统VLA的核心优势在于如果使用视频生成进行预训练就没有任何扩展障碍同时还能规避对硬件、本体和真机数据的依赖。需要特别指出的是过去我们对世界模型的认知是“生成数据、生成环境用来训练或评估另一个模型”。但对具身智能而言这并非其最关键的价值。世界模型的核心价值在于它可能是解决具身智能预训练问题的根本出路。在预训练阶段我们需要的是积累对物理世界的“直觉认知”而非追求完美的物理正确性——正如训练LLM时并不需要完美的答案一样物理正确性可以在后训练post-train阶段再去完善。更重要的是世界模型在本质上是“任务无关”的——它关注的是环境动力学本身能够仿真并“预演”在不同动作下任务的完成情况而不仅仅是某个具体任务的最优动作分布。这一特性使其具备强大的可迁移性一旦环境的动态规律被较好地捕捉便可在多个任务之间复用甚至服务于不同形态的智能体。基于模型的强化学习往往比完全无模型的方法具有更高的样本效率。通过在内部世界模型中进行“预演”智能体可以在不与真实世界进行昂贵交互的情况下对策略进行高效的评估和改进。这正是近期提出的ProphRL (Zhang, et al. 2025) 等工作的切入口将预训练好的世界模型视作统一的“神经模拟环境”在其中对VLA策略进行大规模后训练。类比LLM领域的RLHF这种方法通过奖励信号对策略进行再塑造利用高保真视频生成环境中的大规模“想象轨迹”驱动策略更新最终再将优化后的策略回迁到真实机器人上完成闭环从而有效解决了真实环境交互昂贵且存在安全风险以及传统物理仿真器难以兼顾多模态和复杂接触动力学的难题。三、系统分层控制架构具身智能的落地不仅需要强大的模型大脑更需要合理的系统设计来支撑复杂的长程任务与高效的技能习得。当前的系统演进正呈现出从端到端向类计算机操作系统的“分层架构”演进的明显趋势如RoboMemoryLei Mingchong, et al.、RoboOSTan Huajie, et al.。具身指令编译器借鉴了计算机体系结构将系统分为清晰的层级顶层是人类语言或高层任务描述中间层是“具身指令集”底层是具体的运动控制与硬件驱动。编译器的作用就是将高层的感知与意图“转译”为底层的关节、力矩和轨迹指令。这种架构实现了行为表示与机器人本体的解耦便于跨本体迁移。与此同时技能库Skill Library解决了长程任务规划的难题。模型不再需要从头学习每一个动作而是学习一个可组合的技能集合如抓取、推、走。上层大模型LLM/VLM负责语义理解和任务拆解输出高层的技能token底层策略网络负责将token转化为具体的控制信号。这种分层控制策略Hierarchical Control既利用了大模型的推理能力又保证了底层控制的实时性与稳定性。未来的机器人将拥有像智能手机一样的“操作系统”。开发者只需调用高层的技能API如robot.pick_up(cup)而无需关心底层的电机控制。这将极大地降低具身智能的应用开发门槛。四、评测多样性、真实性与可扩展性的三重挑战4.1 评测范式的现状与困境当前具身智能的评测方式主要有三类。第一类是基于仿真引擎驱动的评测如SimplerEnvLi Xuanlin, et al.和LiberoLiu Bo, et al.优势在于成本低、门槛小物体位姿与场景变量可进行充分而严格的随机化但面临仿真到真实的落差——视觉层面的域差纹理、光照、材质与物理层面的偏差接触、摩擦、顺应性。第二类是基于真实机器人的评测如RoboChallengeYakefu Adina, et al.最大优势在于真但代价高昂实验室能搭建的场景有限维护与运行需要持续的人力物力更关键的是可复现性问题突出。第三类是利用世界模型进行情景展开并引入多模态模型评分如EWMBenchYue Hu, et al.相对可复现且可扩展但物理真实性仍偏弱模型幻觉带来的评测偏差不可忽视。4.2 好评测的标准公平性是底线具身智能评测的底线要求只有一个公平性而公平性的本质是可复现性。没有可复现性一切对比都失去意义。在这条底线之上评测应当追求三个进阶目标多样性场景、物体、任务、行为的广覆盖、真实性视觉与物理的双重逼真、可扩展性平台的可配置与可重组。当前主流评测以成功率为第一指标但这无法全面反映模型的真实能力。评测体系需要向多维度演进任务完成度对多子目标任务的细粒度评测、多模态理解能力跨任务、跨指令的准确率与鲁棒性、轨迹质量平滑性、冗余度、抓取稳定性、放置精确性以及在未见物体、未见场景、未见组合条件下的零样本与少样本迁移性能。4.3 走向标准化双轨并行的建议未来的评测范式建议双轨并行、各司其职。一方面建设高度逼真的仿真环境用有限而严格的仿真与真机场景支撑快速的算法迭代另一方面面向开放世界开展充分随机化的评测指令、场景、光照、资产扰动等考察模型的稳健性。 为维护真机评测的可复现性需要推动标准化与平台化的举措。北美学术联盟提出的ManipulationNetChen Yiting, et al.提供了严格一致且可批量采购的真机资产清单让社区能够在统一资产上公平对比“Robot Arena”Atreya Pranav, et al.式的平台则鼓励研究者提交策略评测任务被分发到不同实验室以分布式方式统一执行。这些努力的共同指向是把真机评测从各做各的引导到统一口径、中心化协议、去中心化执行”。图 4. 具身评测的三重挑战五、展望通向具身AGI的关键节点5.1 Locomotion与Manipulation的一体化如果说2024-2025年是把VLA更系统地引入具身智能的阶段那么2026年很可能是行走Locomotion与操作Manipulation一体化规模推进的节点。将数据驱动的模仿学习范式从桌面级操作扩展到人形机器人的全身运动控制有望催生出类似Open-VLA式的标志性全身控制模型。 在技术路径上离线预训练在线微调的组合范式正在成为主流离线阶段采用监督/模仿学习建立稳定基座在线阶段再通过微调、奖励学习与持续学习增强鲁棒性并进一步缩小Sim-to-Real的差距。人形机器人的全身协调感知规划控制——包括双足行走、双臂操作、躯干平衡、环境交互的统一建模——将成为这一阶段的核心技术挑战而构建统一的世界模型同时对机器人的全身本体状态与环境物体的视觉状态进行联合建模与预测也成为了有力的未来解决思路。5.2 具身智能的“ImageNet时刻”何时到来回顾AI发展史每一次重大突破都伴随着标志性数据集或基准测试的出现ImageNet之于计算机视觉GLUE/SuperGLUE之于自然语言理解。具身智能同样需要这样一个里程碑式的时刻。 李飞飞团队发起的BEHAVIOR ChallengeJiang Yunfan, et al.可能成为具身智能的关键催化剂。这一挑战赛聚焦于家庭环境中的长程任务规划与执行要求智能体在复杂、动态的场景中完成多步骤任务预计将推动具身机器人算法的新一轮爆发。 然而“ImageNet时刻”的真正到来需要满足几个条件一是数据层面需要出现一个足够大规模、足够多样化、且社区广泛认可的标准数据集二是评测层面需要建立公平、可复现、且能区分算法优劣的基准测试三是算法层面需要有一个标志性的模型在该基准上取得突破性成绩从而引发社区的广泛跟进。当这三个条件同时具备时具身智能才可能迎来属于自己的“ImageNet时刻”开启新一轮的快速发展。参考文献Bu, Qingwen, et al. “Agibot world colosseo: A large-scale manipulation platform for scalable and intelligent embodied systems.” arXiv preprint arXiv:2503.06669 (2025).Cheng, Xuxin, et al. “Open-television: Teleoperation with immersive active visual feedback.” arXiv preprint arXiv:2407.01512 (2024).Qin, Yuzhe, et al. “Anyteleop: A general vision-based dexterous robot arm-hand teleoperation system.” arXiv preprint arXiv:2307.04577 (2023).Li, Qixiu, et al. “Scalable vision-language-action model pretraining for robotic manipulation with real-life human activity videos.” arXiv preprint arXiv:2510.21571 (2025).Zhang, Jiahui, et al. “4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration.” arXiv preprint arXiv:2506.22242 (2025).Zhang, Wenyao, et al. “Dreamvla: a vision-language-action model dreamed with comprehensive world knowledge.” arXiv preprint arXiv:2507.04447 (2025).Li, Fuhao, et al. “Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model.” arXiv preprint arXiv:2510.12276 (2025).Hu, Yucheng, et al. “Video prediction policy: A generalist robot policy with predictive visual representations.” arXiv preprint arXiv:2412.14803 (2024).Liao, Yue, et al. “Genie envisioner: A unified world foundation platform for robotic manipulation.” arXiv preprint arXiv:2508.05635 (2025).Unitree. UnifoLM-WMA-0: A World-Model-Action (WMA) Framework under UnifoLM FamilyLei, Mingcong, et al. “RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Lifelong Learning in Physical Embodied Systems.” NeurIPS 2025 Workshop on Space in Vision, Language, and Embodied AI. 2025.Tan, Huajie, et al. “Roboos: A hierarchical embodied framework for cross-embodiment and multi-agent collaboration.” arXiv preprint arXiv:2505.03673 (2025).Li, Xuanlin, et al. “Evaluating real-world robot manipulation policies in simulation.” arXiv preprint arXiv:2405.05941 (2024).Liu, Bo, et al. “Libero: Benchmarking knowledge transfer for lifelong robot learning.” Advances in Neural Information Processing Systems 36 (2023): 44776-44791.Yakefu, Adina, et al. “RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies.” arXiv preprint arXiv:2510.17950 (2025).Yue, Hu, et al. “Ewmbench: Evaluating scene, motion, and semantic quality in embodied world models.” arXiv preprint arXiv:2505.09694 (2025).Chen Yiting, et al. ManipulationNet: Benchmarking Real-World Robot Manipulation at Scale through Physical Skill Challenges and Embodied Multimodal ReasoningCalife, Daniel, João Luiz Bernardes Jr, and Romero Tori. “Robot Arena: An augmented reality platform for game development.” Computers in Entertainment (CIE) 7.1 (2009): 1-26.Li, Chengshu, et al. “Behavior-1k: A benchmark for embodied ai with 1,000 everyday activities and realistic simulation.” Conference on Robot Learning. PMLR, 2023.Chen T, Chen Z, Chen B, et al. Robotwin 2.0: A scalable data generator and benchmark with strong domain randomization for robust bimanual robotic manipulation[J]. arXiv preprint arXiv:2506.18088, 2025.Tian Y, Yang Y, Xie Y, et al. InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy[J]. arXiv preprint arXiv:2511.16651, 2025.Gao N, Chen Y, Yang S, et al. GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation[C]//Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 12187-12198.Zhang, Jiahui, et al. “Reinforcing Action Policies by Prophesying.” arXiv preprint arXiv:2511.20633 (2025).