2026/5/24 4:42:37
网站建设
项目流程
网站设计一般会遇到哪些问题,大岭山网站,最优的郑州网站建设,网站模板好ROLLMux#xff1a;让大模型强化学习训练成本降低近一半的调度框架
在大模型强化学习#xff08;RL#xff09;后训练中#xff0c;如何高效利用昂贵的GPU资源一直是工业界的痛点。传统的rollout-training分离架构虽然能匹配不同阶段的硬件需求#xff0c;但严格的同步要…ROLLMux让大模型强化学习训练成本降低近一半的调度框架在大模型强化学习RL后训练中如何高效利用昂贵的GPU资源一直是工业界的痛点。传统的rollout-training分离架构虽然能匹配不同阶段的硬件需求但严格的同步要求却让一半以上的GPU处于闲置状态。来自香港科技大学和阿里巴巴的研究团队提出了ROLLMux一个通过phase级别多路复用技术将RL训练成本效率提升1.84倍的集群调度框架。该系统已在328个H20 GPU和328个H800 GPU组成的生产环境中验证实现了100% SLO达成率的同时大幅降低了资源成本。论文标题ROLLMux: Phase-Level Multiplexing for Disaggregated RL Post-Training来源arXiv:2512.11306v1 [cs.DC] 12 Dec 2025论文链接https://arxiv.org/abs/2512.11306PS: 整理了LLM、量化投资、机器学习方向的学习资料关注同名公众号 「 AI极客熊 」 即刻免费解锁文章核心研究背景随着大语言模型LLM的发展重心从预训练转向强化学习后训练如何高效部署RL工作负载成为关键挑战。生产实践中同步on-policy算法如PPO、GRPO因其稳定性和模型质量成为主流选择。这类算法的训练流程包含三个阶段rollout内存带宽密集型的推理生成阶段、training计算密集型的参数优化阶段和synchronization网络密集型的参数同步阶段。为应对不同阶段的资源需求差异业界逐渐采用分离架构disaggregated architecture将rollout部署在成本低廉的推理优化GPU如NVIDIA H201.85美元/小时上将training部署在高性能计算GPU如NVIDIA H8005.28美元/小时上。这种架构理论上能通过硬件-任务匹配提升成本效率但实际部署中却面临严重的**依赖气泡dependency bubbles**问题由于on-policy算法要求严格同步training集群在等待rollout时必须闲置反之亦然导致集群利用率极低。在作者的生产集群中RL任务量在6个月内从每月5000个增长到14000个但传统分离架构的实际成本0.94k美元/小时甚至高于硬件不匹配的单体部署0.71k美元/小时说明依赖气泡带来的资源浪费完全抵消了硬件优化的收益。研究问题当前disaggregated RL架构存在三个核心挑战工作负载异构性导致调度难题生产环境中RL任务的模型规模3B-32B、响应长度4k-32k tokens和交互模式单轮/多轮差异巨大phase时长从50秒到900秒不等。简单的时间复用会导致严重干扰如两个rollout密集型任务竞争推理节点双方都减速1.4×-1.6×而找到最优调度方案本质上是NP-hard的Job Shop Scheduling问题。运行时随机性破坏静态计划LLM生成长度服从长尾分布少数straggler请求会不可预测地延长phase时长且分布会随模型更新漂移。这导致静态调度计划失效同时rollout阶段内部出现偏斜气泡早完成的GPU等待straggler。上下文切换开销限制复用粒度RL训练是有状态的需要管理数百GB的模型权重和优化器状态32B模型的单phase状态达490GB。冷启动从磁盘或跨集群网络加载延迟高达80秒会抵消45%的吞吐收益。虽然warm-start从host内存加载可将延迟降低48倍但单节点内存1-2TB只能缓存2-5个任务形成严格的驻留约束。主要贡献ROLLMux通过算法-系统协同设计实现了近乎最优的调度效率核心贡献包括协同执行组co-execution group抽象将集群划分为隔离的locality域每个组内的多个任务通过时间复用共享rollout和training资源池。这一抽象将全局NP-hard问题分解为可并行求解的子问题同时通过将任务固定在特定节点上强制实施驻留约束确保状态常驻host内存以支持warm-start。两层调度架构Inter-group调度器采用保守随机规划在任务到达时通过worst-case估计假设所有响应达到最大token长度寻找最小边际成本的组放置主动剪枝已饱和的组以保持线性搜索复杂度。Intra-group调度器在非过载组内执行可证明最优的round-robin调度并通过long-tail migration动态适应运行时随机性——当80%响应完成时将剩余长尾请求迁移到少数GPU立即启动下一任务的rollout以实现流水线执行。Warm-start机制与phase中心控制模型通过将组大小限制在节点内存容量内确保所有任务状态模型权重、优化器状态、执行上下文缓存在host DRAM中。引入rollmux.phase装饰器将RL phase提升为一等调度实体暴露内部依赖图给调度器透明管理状态加载。采用轻量级挂起策略保留控制平面如NCCL通信器仅卸载数据平面将上下文切换延迟降低两个数量级。拓扑感知模型同步用两阶段传输替代扁平AllGather——先通过并行P2P流跨慢速跨集群链路传输一份完整模型副本再利用高速本地InfiniBand/NVLink进行集群内广播将同步时间加速8.33倍单节点到2.75倍多节点。方法论精要协同执行组与调度目标ROLLMux的核心洞察是一个任务的依赖气泡可以被另一个任务的活跃phase有效利用。系统将co-execution group定义为共享特定rollout和training资源池的任务集合形式化为四元组( J G , R G , T G , Φ G ) (\mathcal{J}_G, \mathcal{R}_G, \mathcal{T}_G, \Phi_G)(JG,RG,TG,ΦG)其中J G \mathcal{J}_GJG是活跃任务集R G \mathcal{R}_GRG和T G \mathcal{T}_GTG是rollout和training GPU集合Φ G { P j } j ∈ J G \Phi_G \{P_j\}_{j \in \mathcal{J}_G}ΦG{Pj}j∈JG是资源放置指定每个任务固定在哪些节点上以缓存状态。调度目标是最小化总资源供给成本从而最小化依赖气泡同时满足内存驻留约束固定到同一节点的所有任务的工作集总和不超过host内存容量SLO约束每个任务的协同执行迭代时间T k co-exec T_k^{\text{co-exec}}Tkco-exec不超过其solo执行时间T k solo T_k^{\text{solo}}Tksolo的SLO倍数如1.1×Inter-group调度保守规划与成本最优化当新任务j jj到达时inter-group调度器执行全局搜索以找到最小边际成本Δ Cost ( G ′ ) − Cost ( G ) \Delta \text{Cost}(G) - \text{Cost}(G)ΔCost(G′)−Cost(G)的放置G ′ GG′表示接纳j jj后的组状态。算法采用三个关键策略1. 保守worst-case估计应对随机性为保证SLO在随机工作负载下仍然成立调度器将admission control与runtime optimization解耦。对到达任务j jj估计其phase时长( T j roll , T j train ) (T_j^{\text{roll}}, T_j^{\text{train}})(Tjroll,Tjtrain)时假设每个生成响应都达到最大token限制。基于此上界进行放置决策确保即使在最坏随机条件下SLO约束也能满足。若实际运行时长更短通常如此intra-group调度器会动态回收slack以提升利用率。2. 三种放置策略与成本优化调度器为每个候选组评估三种策略图5Direct Packing将任务插入现有依赖气泡无需新增资源Δ 0 \Delta0Δ0优先选择Rollout Scaling若组的training容量充足但rollout瓶颈常见于多轮agentic工作负载仅扩展rollout池Isolated Provisioning为任务创建新的隔离组fallback方案遍历所有策略选择满足内存和SLO约束且Δ \DeltaΔ最小的放置。3. 饱和组剪枝保证可扩展性在评估具体放置前调度器先剪枝已饱和的组。定义组的自然周期时间T G cycle max j ∈ J G T j solo T_G^{\text{cycle}} \max_{j \in \mathcal{J}_G} T_j^{\text{solo}}TGcyclemaxj∈JGTjsolo由最慢任务决定瓶颈负载T G load max { ∑ j ∈ J G T j train , max n ∈ Φ G ( ∑ j on n T j roll ) } T_G^{\text{load}} \max\{\sum_{j \in \mathcal{J}_G} T_j^{\text{train}}, \max_{n \in \Phi_G}(\sum_{j \text{ on } n} T_j^{\text{roll}})\}TGloadmax{∑j∈JGTjtrain,maxn∈ΦG(∑jonnTjroll)}。若T G cycle ≥ T G load T_G^{\text{cycle}} \geq T_G^{\text{load}}TGcycle≥TGload组已饱和无slack任何新增都会导致延迟图6立即剪枝。这使搜索复杂度对组数量保持线性实验显示即使2000个任务也能在591ms内完成决策表5。Intra-group调度最优round-robin与动态适应Round-robin策略的最优性证明在每个co-execution group内intra-group调度器执行meta-iteration每个活跃任务恰好执行一次rollout和一次training phase。例如组{ A , B } \{A, B\}{A,B}的rollout池执行Roll A → Roll B \text{Roll}_A \to \text{Roll}_BRollA→RollBtraining池执行Train A → Train B \text{Train}_A \to \text{Train}_BTrainA→TrainB图1。论文证明了对于非饱和组T G load ≤ T G cycle T_G^{\text{load}} \leq T_G^{\text{cycle}}TGload≤TGcycleround-robin调度是利用率最优的Theorem 1。证明核心非饱和条件意味着瓶颈节点的总工作量不超过最慢任务的solo周期时间因此可以将所有其他任务的对应phase打包进最慢任务的依赖气泡中。任何偏离省略任务导致饥饿重复任务延长周期但效用增长更慢都会降低利用率。Long-tail migration应对运行时随机性虽然round-robin对确定性工作负载最优但生产RL phase高度随机。Rollout时长服从重尾分布图11左少数straggler响应会导致大部分GPU在batch内空闲等待。ROLLMux采用long-tail migration动态回收这部分容量持续监控活跃rollout phase进度当80%响应完成时触发tail-bound状态中断执行将剩余长尾响应合并到少数worker在新释放的rollout GPU上立即启动下一任务的rollout phase这种机制有效流水线化一个任务的尾部与下一个任务的头部图7实验显示吞吐提升1.06×-1.28×图11右。执行平面Phase中心控制与warm-startPhase作为一等调度实体传统深度学习调度器将job作为原子单元无法交错不同任务的phase。ROLLMux引入phase-centric执行模型将每个RL任务建模为phase依赖图Init → ( Rollout → Train → Sync ) ∗ \text{Init} \to (\text{Rollout} \to \text{Train} \to \text{Sync})^*Init→(Rollout→Train→Sync)∗。用户通过rollmux.phase装饰器声明phase函数系统注入透明runtime shimPhase调用时阻塞直到从intra-group调度器获取run permit获准后从host DRAM warm-start加载phase的驻留工作集到GPU用户函数完成后立即offload更新状态回host内存释放GPU进程进入sleep循环保留控制平面如NCCL通信器避免昂贵的冷启动这种设计将上下文切换延迟从80秒冷启动降至1.7-5.9秒warm-start图4使细粒度时间复用实用化。拓扑感知两阶段同步现有RL框架如veRL使用扁平AllGather同步模型参数将慢速跨集群Ethernet和快速集群内InfiniBand视为统一网络导致每个rollout worker独立通过慢速链路拉取完整模型副本图8上。ROLLMux替换为分层两阶段传输图8下Inter-cluster scatter将更新模型分片为N NN个disjoint shardN NN为training GPU数每个training GPU通过并行P2P流向对应rollout GPU传输唯一shard确保跨集群链路仅传输一份完整模型Intra-cluster broadcast接收GPU立即通过高带宽InfiniBand/NVLink将shard广播到所有其他rollout worker实验显示单节点同步加速8.33×多节点加速2.75×图12。系统实现与容错ROLLMux基于ROLL实现包含5.2k行代码Python控制器 C通信模块。运行流程图9任务提交后启动轻量级profiler生成worst-case时长估计Inter-group调度器识别最优组和资源放置Intra-group调度器编排round-robin meta-iteration基于runtime hook反馈触发long-tail migrationPhase完成后offload状态到host DRAM的actor cache从调度队列启动下一任务的等待phase容错方面每个任务拥有独立Ray实例和隔离运行时环境仅通过Redis channel与调度器通信。任务崩溃完全隔离在其pod内不会传播错误到同组其他任务。实验洞察实验环境与工作负载实验在地理分布的异构集群上进行training集群配备328个NVIDIA H800 GPU989.5 TFLOPS5.28美元/小时rollout集群配备328个NVIDIA H20 GPU148 TFLOPS1.85美元/小时集群内部为400 Gbps InfiniBand跨集群为20 Gbps Ethernet。工作负载包括微基准测试5种代表性任务Qwen-2.5/3模型7B-32B单轮RLVR和多轮agentic推理规模化评估重放2周生产trace包含200个异构RL任务模型3B-32B平均时长27.9小时SLO从Unif(1,2)采样大规模仿真使用Microsoft Philly集群trace的300任务580小时片段合成9种任务配置Balanced/Rollout-Heavy/Train-Heavy × Small/Medium/Large基线包括Solo Disaggregation标准1:1分离架构、veRL单体co-location、Gavel异构感知调度器的RL增强版。微基准协同执行的有效性三个场景验证ROLLMux消除依赖气泡的能力时间复用Temporal Mux协同执行两个结构相似的Type-A任务7B单轮ROLLMux完美交错执行使两个资源池持续饱和成本效率比Solo-D提升82%比veRL提升46.8%图10a。基线失败原因Solo-D和Gavel始终让一个资源池闲置veRL在内存密集型rollout阶段浪费昂贵H800的计算能力。处理rollout密集型任务Train Mux协同执行两个Type-D任务T roll ≈ 2.5 T train T_{\text{roll}} \approx 2.5 T_{\text{train}}Troll≈2.5Ttrain和一个Type-E任务T roll ≈ 6 T train T_{\text{roll}} \approx 6 T_{\text{train}}Troll≈6TtrainROLLMux将rollout池扩展到24个H20 GPU每任务一个推理节点在单个H800 training节点上round-robin所有training phase图10b。成本效率比Solo-D提升104%比veRL提升29.9%。Solo-D和Gavel因长rollout phase让昂贵training节点长期闲置。空间复用Spatial Mux协同执行一个大Type-C任务16×H2016×H800和两个小Type-D任务各8×H2016×H800ROLLMux识别大任务rollout phase产生的空闲资源动态将两个小任务打包进这些气泡图10c。成本效率比Solo-D提升111%比veRL提升66.1%。干扰开销方面ROLLMux相比solo执行仅有5-9%吞吐下降表4因为inter-group调度器主动剪枝了会违反驻留或性能约束的放置。即使与理想化co-location上界所有phase独占H800零网络成本相比吞吐差距也仅9.0-20.0%。消融实验关键优化的贡献Long-tail migration的有效性LLM生成长度呈现明显重尾分布图11左少数straggler请求在大部分请求完成后仍持续。启用请求迁移后通过将tail-bound请求迁移到少数GPU使下一任务rollout phase立即在释放的大部分资源上开始端到端吞吐提升1.06×-1.28×图11右。收益在长输出序列工作负载如14B-8k最显著。拓扑感知模型同步在地理分离设置中ROLLMux的两阶段传输比veRL快7.87×-8.33×单节点8 H800→8 H20和2.62×-2.75×多节点16 H800→16 H20图12。显著加速源于跨慢速跨集群链路仅传输一份模型副本然后利用高带宽本地NVLink进行最终集群内广播而基线为每个rollout GPU冗余拉取独立副本。生产规模成本效率与资源利用在2周200任务的生产trace重放中ROLLMux每小时仅需510美元容纳所有任务相比Solo-D降低1.84×相比veRL降低1.38×同时达成100% SLO图13a。成本效率直接源于最小化边际成本的调度算法Algorithm 1。资源效率方面ROLLMux相比solo disaggregation将rollout集群的依赖气泡减少24.4%training集群减少43.1%因工作负载通常rollout密集training GPU留下更多气泡图13b/c。通过紧密打包ROLLMux峰值仅需152个H800相比Solo-D和veRL的328个降低2.16×和216个H20相比Solo-D的328个降低1.52×。虽然co-located veRL基线不使用独立rollout GPUROLLMux整体仍有1.38×成本优势通过分离将内存密集型rollout卸载到便宜H20同时用协同调度填充产生的依赖气泡。调度器质量最优性与可扩展性大规模trace仿真300任务580小时验证inter-group调度器的性能。ROLLMux在所有工作负载类型Balanced/Rollout-Heavy/Train-Heavy/Mixed下达成100% SLO成本仅为brute-force最优解的1.01×-1.12×图14a。相比之下Random和Greedy基线的成本是最优的1.72×-2.00×和1.38×-1.89×SLO达成率仅37-58%和42-61%。敏感性分析显示ROLLMux对SLO紧度图14b和最大组大小图14c高度稳定始终维持最低成本和100% SLO达成。决策延迟方面ROLLMux对2000个并发任务仅需591ms表5展现近线性可扩展性而brute-force最优解对13个任务就超过5小时在实际规模下不可行。总结ROLLMux通过协同执行组抽象和两层调度架构在保持on-policy算法同步要求的前提下将disaggregated RL后训练的成本效率提升近一倍。其保守规划应对随机性、round-robin最优调度、warm-start机制和拓扑感知同步的协同设计为多租户RL集群提供了首个生产级调度解决方案。在328 GPU规模的生产环境验证和2000任务的大规模仿真中系统均展现出接近理论最优的性能成本开销仅6%为工业界大规模部署RL后训练提供了重要参考。