2026/3/28 3:56:21
网站建设
项目流程
均安网站制作,一般网站建设公司怎么收费,告白网站怎么做,农产品网站建设结构系统概览图RealVideo 系统工作流程概述系统工作流程始于角色初始化#xff1a;用户提供参考图像和参考语音文件用于克隆#xff0c;系统据此实例化角色。用户还可以设置系统提示#xff0c;指定模型应扮演的角色。随后#xff0c;RealVideo 通过文本输入与用户交互。用户消…系统概览图RealVideo 系统工作流程概述系统工作流程始于角色初始化用户提供参考图像和参考语音文件用于克隆系统据此实例化角色。用户还可以设置系统提示指定模型应扮演的角色。随后RealVideo 通过文本输入与用户交互。用户消息由 LLM 处理并记录LLM 随后根据全局上下文生成响应。生成的文本被传递给 TTS 模块合成语音合成的语音又成为自回归扩散模型的输入。该模型以块每块约 0.5 秒的形式输出视频。视频潜在信号随后由 VAE 进行流解码并与相应的音频一起传输到前端以实现实时交互。在当前架构中通过引入自动语音识别 (ASR) 和语音音频检测 (VAD)可以轻松地将文本输入替换为语音输入。类似地将 LLM 替换为流式 VLM 即可同时支持视频和语音输入。为了保持模块化RealVideo 默认使用文本输入但我们欢迎社区扩展其功能添加更多输入方式。模型训练基于自回归扩散的视频生成音频驱动视频生成目前已有多个开源的非实时音频驱动视频生成模型能够生成高质量的结果。经过测试我们选择 WanS2V [2] 作为基础模型进行后续的自回归训练。WanS2V 提供两种生成模式5 秒语音视频生成和 5 秒视频连续生成。由于自回归训练允许模型生成任意长度的视频而无需显式地进行连续处理因此我们的训练重点放在第一种模式上。Autoregressive Training 自回归训练RealVideo 的训练流程基于 Casuvid [3] 和 Self-Forcing [4] 框架并进行了多项改进。训练过程分为两个阶段第一阶段ODE 蒸馏。首先从双向教师模型中采样大量 ODE 轨迹然后训练一个单向模型来拟合这些轨迹该单向模型只需显著减少推理步骤例如 4 步或 2 步。经过此阶段单向模型已经能够生成简单的对话场景但在更复杂的场景中仍会出现轻微的闪烁。第二阶段自强制训练。在常微分方程蒸馏之后模型将进一步训练以匹配教师模型方法是最小化“真实分数模型”和“虚假分数模型”概率密度之间的梯度差异如[3][4]所述。真实分数模型和虚假分数模型的选择至关重要通过实验我们观察到对两者都使用双向模型并从真实模型初始化虚假模型可以获得最佳结果。Sliding Window Attention 滑动窗口注意事项实时生成要求在 1/FPS秒内生成每一帧这意味着每帧的推理延迟必须严格控制。因此稀疏注意力机制对于保持上下文长度在可控范围内至关重要。一种简单有效的方法是滑动窗口注意力机制。当视频长度超过设定的阈值时旧的键值缓存条目会被截断同时保留参考图像的键值缓存从而保持注意力上下文长度不变。然而滑动窗口注意力机制存在两个主要问题i长期记忆丢失模型会忘记之前的帧导致无法完成持续时间较长的动作ii动作重复反复生成短期动作尤其是在 T2V 和 I2V 场景中例如反复挥手。这是因为模型无法在有限的上下文窗口内判断某个动作是否已经完成。幸运的是在音频驱动的视频生成中这种限制通常是可以接受的原因有二(i) 音频流严格限制了每一帧的内容(ii) 人类对话很少涉及冗长或复杂的动作。因此滑动窗口注意力机制非常适合音频驱动的视频生成以及具有明确控制流的任务例如骨架或风格。虽然并非理想之选但由于其他注意力机制的训练和部署复杂度更高我们还是选择了这种方法用于当前版本。我们计划在未来的工作中对其进行改进。Dynamic Sink RoPE 动态下沉绳接收器标记Sink Tokens的概念最初引入于语言模型[5]在滑动窗口注意力机制下将关键标记保留在键值缓存KV cache中可以显著提升长上下文文本生成的性能。在实时流视频生成中参考图像中的标记是理想的接收器标记因为它们能够引导模型在整个生成过程中与参考图像保持一致。然而在长时间的对话过程中这些接收器标记与当前生成帧之间的相对距离会持续增大。最终这种距离会超出训练过程中覆盖的位置编码范围导致训练结果与推理结果之间出现显著的不匹配。这个问题直接表现为“身份漂移”随着生成时间的延长视频中的角色会逐渐偏离参考图像导致视觉保真度逐渐下降。幸运的是由于 RoPE 是一种相对位置编码我们可以通过简单地调整目标标记的位置索引确保滑动窗口注意力机制下推理和训练之间的严格对齐。类似的观察结果在之前的文献 [6] 中也有提及。在 WanS2V 架构中参考图像的时间 RoPE 索引被设置为 30而 5 秒去噪视频窗口的索引范围为 0-20。这意味着只要参考图像目标标记与当前去噪帧之间的相对距离保持在 [10, 30] 区间内配置就能与训练分布保持一致。因此当当前生成帧的索引超过 20 时我们会动态更新参考图像的 RoPE 索引以强制执行以下关系下图也展示了这种位置索引关系。实验结果表明该策略能有效缓解长时间内的角色漂移显著提升视频生成过程的稳定性和视觉一致性。受 DMD2[7]的启发我们在自强制训练阶段引入了基于噪声潜在变量的对抗训练以提升视觉质量和角色一致性。具体而言我们利用伪分数模型对噪声潜在变量强大的特征提取能力来构建判别器如下图所示。首先我们采样一个对应于低噪声区域在本实验中为 0-200的时间步。基于该时间步采样噪声并将其添加到真实或生成的视频潜在特征中。这些带噪声的潜在特征连同条件输入参考图像、文本提示、音频和时间步被输入到伪分数模型中。然后我们从伪分数模型的后续阶段例如Transformer 模块 14、22 和 30提取特征并将它们传递给轻量级分类头。每个分类头由一个交叉注意力层组成其中可学习的注册标记作为查询带噪声的潜在特征作为键和值之后连接一个多层感知器 (MLP)。三个分类头输出的特征被连接起来并通过最终的 MLP 进行投影从而得到分类逻辑值。我们切断了分类器向模拟模型返回的梯度流以避免干扰 DMD 损失。此外由于判别器更新过于频繁可能会使生成器性能下降我们采取了以下措施i降低判别器的学习率ii当损失低于设定的阈值时停止判别器更新。对抗训练能够显著提高感知质量并减少长期视频生成中的颜色漂移。System Architecture 系统架构RealVideo 的架构由三个主要组件构成User Interface 用户界面处理用户交互将用户输入发送到后端并显示流式音频/视频帧。VAE Service VAE 服务VAE 服务负责协调以下任务输入处理接收用户输入并调用 LLM-TTS 管道生成音频响应。编码和传输对音频和文本提示进行编码并将其传输到 DiT 服务。解码和显示从 DiT 服务接收生成的视频潜在块使用 VAE 将其解码为像素空间视频帧并将其流式传输到用户界面。DiT Service DiT 服务DiT 服务托管了一个流式视频生成扩散变换器。它从 VAE 服务接收音频嵌入并以自回归流式方式生成相应的潜在视频块然后将这些视频块发送回 VAE 服务。System Optimizations 系统优化影响用户体验的两个主要因素是实时生成平滑度系统响应延迟我们据此实施了几项优化措施。Real-Time Generation 实时生成实时性能的主要瓶颈在于 DiT 服务能否在当前数据块的播放时间内完成下一个数据块的去噪和传输。我们实现了几种加速策略多 GPU 序列并行我们在推理过程中使用 Ulysses [7] 进行序列并行随着 GPU 数量的增加速度提升接近线性。在 H100 数据集上单个 GPU 上单个数据块4 步block_size2的推理时间为 943 毫秒而使用 2 个 GPU 时则为 655 毫秒。PyTorch 编译利用 torch.compile在 PyTorch 2.0 中引入我们优化了特定模块将推理速度从 513 毫秒提高到 480 毫秒。内存优化自回归生成算法需要频繁地对键值缓存进行读写操作导致内存分配和释放的开销。利用滑动窗口注意力机制中键值缓存的有效大小恒定这一特性我们预先分配一个与窗口大小对应的固定内存块。通过调整更新和读写策略我们显著减少了冗余的内存操作和数据复制。另一种方法是量化模型当前代码库已支持该模型。我们欢迎社区成员共同努力开发量化版本。Response Speed 响应速度响应速度定义为用户输入完成到视频响应开始之间的延迟。这取决于上游模型LLM、TTS和视频生成系统本身的延迟。TTS 并行策略实验性策略最终未采用为了最大限度地缩短首词时间我们尝试了一种双路径策略。首先快速生成一个低质量的音频“草稿”步骤2用于模拟视频生成足以实现唇形同步同时并行生成一个高质量的音频步骤6用于最终的音频输出。然而测试表明这种方法仅节省了几十毫秒却使 API 调用次数翻了一番因此在开源版本中省略了该策略。块大小配置一旦第一个音频数据包到达流水线 →→DiT→VAE→Frontend便开始运行。由于生成速率高于播放速率初始延迟取决于流水线缓冲区长度2-3 个已生成但尚未显示的视频块。这种延迟主要源于 DiT、VAE 和前端之间的流水线并行处理而非 DiT 本身的生成速度。我们选择 2 个延迟帧0.5 秒播放时长的块大小以在响应速度和计算效率之间取得平衡。系统总延迟约为 2 秒。沉默处理在交互过程中虚拟化身通常处于静默状态零音频输入。我们观察到纯零输入会导致虚拟化身完全静止。为了解决这个问题我们在静默音频帧中注入随机噪声其方差与训练音频数据的全局背景噪声相匹配。这有效地防止了静态伪影并保持了逼真的效果。概括RealVideo 是一款实时流式对话视频系统它利用自回归扩散算法将文本交互转换为连续、高保真的视频响应。其双服务架构VAE 服务 DiT 服务结合序列并行推理、键值缓存优化和流水线调度实现了流畅的 0.5 秒视频块流传输端到端延迟约为 2 秒。这些建模和工程方面的进步使 RealVideo 成为首批能够实时、逼真且持续生成对话视频的开放实用系统之一。