网站建设广告投放是什么专业网站建设大型公司
2026/4/9 1:03:39 网站建设 项目流程
网站建设广告投放是什么,专业网站建设大型公司,推广公司的网站可以采取哪些方式,协助别人做网站犯法么腾讯混元3D数字人团队刚刚开源了HY-Motion 1.0系统。这是业界首个将DiT架构在动作生成领域扩展至十亿参数量级的模型#xff0c;通过独创的三阶段训练范式与精细的数据工程#xff0c;在指令跟随能力和动作质量上显著超越了DART、MoMask等现有开源基准。3D内容创作正在经历一…腾讯混元3D数字人团队刚刚开源了HY-Motion 1.0系统。这是业界首个将DiT架构在动作生成领域扩展至十亿参数量级的模型通过独创的三阶段训练范式与精细的数据工程在指令跟随能力和动作质量上显著超越了DART、MoMask等现有开源基准。3D内容创作正在经历一场从手工制作到生成式AI的范式转移但在文本生成3D动作这一细分赛道上长期存在着模型规模小、指令理解弱、动作滑步抖动等顽疾。HY-Motion 1.0用类似HunyuanVideo的流匹配Flow Matching架构和严苛的数据筛选策略证明了动作生成领域同样遵循缩放定律Scaling Law。它不仅能生成跑步、跳跃等基础动作更能精准执行“一边踢足球一边挥动手臂”这种复杂的组合指令为游戏开发、VR/AR交互和数字人产业提供了工业级的开源底座。构建动作生成的基石高质量的数据是训练高性能生成模型的先决条件而在3D动作领域数据的稀缺与噪声问题尤为突出。为了解决这一痛点研究团队构建了一套涵盖数据获取、处理、过滤和标注的完整数据管线。数据来源包括1200万个野外视频片段、动作捕捉MoCap数据以及专业制作的3D动画资产。这些原始数据首先经过镜头检测和人体检测利用GVHMR算法提取SMPL-X参数最终汇总了约500小时的高质量动捕与动画数据以及海量的视频提取数据。数据的标准化处理是模型通用的前提。所有动作数据被统一重定向Retargeting到标准的SMPL-H骨架上去除了手部骨骼的细微差异保留22个核心关节点的运动信息。为了确保训练数据的纯净团队建立了一套详尽的过滤机制剔除了重复、异常姿态、关节速度离群值以及存在严重滑步伪影的片段。所有动作被重采样至30帧每秒并进行归一化处理将动作起始位置和朝向统一对齐确保模型专注于学习动作本身的动力学特征而非空间位置偏差。标注系统的精度直接决定了模型的语义理解能力。针对视频数据直接使用对应视频作为参考针对3D动作数据则通过渲染生成合成视频。这些视频被输入到Gemini-2.5-Pro等视觉语言模型VLM中生成初步的动作描述和关键词。为了消除机器幻觉团队对VLM的输出进行了人工校验修正错误描述并补充缺失的动作细节。最终利用大语言模型LLM对文本结构进行标准化并生成多样化的改写构建了一个包含动作类别、持续时间及详细描述的层级化分类体系覆盖了从基础移动到复杂社交互动的200多个细分类别。流匹配架构与大模型深度协同HY-Motion 1.0的核心是一个基于DiTDiffusion Transformer的流匹配模型它采用了类似HunyuanVideo的混合Transformer架构。模型输入包括文本提示词和预期的动作时长输出则是3D人体动作序列。在动作表示上采用了SMPL-H骨架的连续6D旋转表示法去除了显式的速度特征和脚部接触标签研究发现这种简化的表示反而能加速模型收敛。模型架构设计巧妙地融合了双流与单流处理模块。网络前端采用双流模块分别处理动作潜在变量Latent和文本Token。两者通过联合注意力机制Joint Attention进行交互使得动作特征能够查询文本中的语义线索同时保持各自模态的独立性。随后这些信息流在单流模块中合并动作与文本Token被拼接成统一序列通过并行空间和通道注意力模块进行深度的多模态融合。为了增强文本理解模型引入了Qwen3-8B作为文本编码器并配合双向Token细化器Bidirectional Token Refiner将因果LLM特征转化为双向表示解决了自回归模型上下文受限的问题。注意力机制与位置编码的设计体现了对物理规律的尊重。为了防止扩散过程中的噪声破坏文本语义模型实施了非对称注意力掩码动作Token可以关注所有文本Token但文本Token不可见动作Token。在时间维度上基于人体运动的局部连续性假设采用了滑动窗口注意力机制Window Attention仅关注前后121帧的范围内既捕捉了局部动态又降低了计算复杂度。全旋转位置编码RoPE的应用则为动作序列和文本描述建立了一个连续的相对坐标系统增强了时空对应关系。为了解决用户输入的不确定性系统引入了一个专门的持续时间预测与提示词改写模块。该模块由Qwen3-30B-A3B模型微调而来负责根据用户输入的模糊指令预测动作时长并将非结构化的自然语言转化为模型易于理解的结构化提示词。这一设计不仅利用了LLM的常识推理能力还通过两阶段微调SFT和RL强化了语义一致性和时间合理性确保生成的动作既符合用户意图又符合物理规律。实现质量与规模的平衡HY-Motion 1.0的训练过程被划分为三个精心设计的阶段大规模预训练、高质量微调和强化学习对齐。这种“先规模后精细”的学习策略有效解决了泛化能力与生成质量之间的矛盾。大规模预训练阶段使用了超过3000小时的数据集虽然包含部分噪声但海量的数据让模型习得了广泛的动作先验和语义映射关系。这一阶段模型快速学会了“如何动”并建立了文本与姿态的鲁棒连接。高质量微调阶段则是对模型输出分布的提纯。训练数据切换至经过严格筛选的400小时高质量子集学习率降低为预训练阶段的十分之一。这一策略旨在将模型的概率密度集中在动作流形的最优模式上不仅大幅抑制了高频抖动和滑步现象还显著提升了对左右手区分等细粒度指令的敏感度。实验表明这一阶段实现了从“大致正确”到“精确平滑”的质的飞跃且未牺牲动作的多样性。强化学习RL阶段是连接统计概率与人类感知的桥梁。首先利用DPO直接偏好优化算法基于9000多对人类标注的偏好数据让模型内化人类对动作质量的评判标准如指令依从性和视觉真实感。随后引入Flow-GRPO算法针对物理和语义约束进行显式优化。奖励函数结合了语义检索模型TMR评分和物理惩罚项如滑步漂移迫使模型在满足严格运动学约束的同时最大化语义准确性解决了生成模型常见的“统计上合理但物理上不可行”的问题。实验结果验证为了全面评估模型性能研究团队构建了一个包含2000多条测试指令的评估集涵盖六大动作类别。通过SSA结构化语义对齐评估和人工评分的双重验证HY-Motion 1.0在指令跟随能力和动作质量上均取得了显著优势。特别是在SSAE评分中HY-Motion 1.0达到了78.6%远超MoMask58.0%和GoToZero52.7%。在视觉质量对比中HY-Motion 1.0生成的动作不仅在骨骼结构上更加合理而且极少出现其他模型常见的悬浮、穿模或非自然扭曲。模型规模的缩放实验揭示了两条关键规律数据规模决定语义理解的上限而数据质量决定动作保真的下限。对比实验显示仅在400小时高质量数据上训练的模型DiT-0.46B-400h虽然动作干净但在指令理解上不如全量数据预训练的模型。而将模型参数从0.05B扩展到1B时指令跟随能力持续提升但动作质量在0.46B后趋于饱和这表明未来的提升可能更多依赖于更精细的数据工程而非单纯堆砌参数。尽管表现优异HY-Motion 1.0在处理极度复杂的长指令和涉及精细物体交互HOI的场景时仍有提升空间。目前的训练数据主要关注人体本身的运动学特征对于手持物体的大小、重量及接触点的物理反馈尚缺乏显式建模。HY-Motion 1.0为高交互性、高物理精度的下一代动作生成技术打下了基础。参考资料https://hunyuan.tencent.com/motion?tabIndex0https://github.com/Tencent-Hunyuan/HY-Motion-1.0https://arxiv.org/pdf/2512.23464https://huggingface.co/tencent/HY-Motion-1.0

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询