2026/2/11 15:43:51
网站建设
项目流程
做视频教学网站服务器配置,四川建设网中标公示,烟台建设工程信息网站,常德网站建设厦门网站制作以下内容转载自公众号“新智元”#xff0c;仅作学术分享
原文链接#xff1a;刚刚#xff0c;DeepSeek扔出大杀器#xff0c;梁文锋署名#xff01;暴力优化AI架构 【新智元导读】2026新年第一天#xff0c;DeepSeek发表了梁文锋署名的重磅新论文#xff0c;提出了一种…以下内容转载自公众号“新智元”仅作学术分享原文链接刚刚DeepSeek扔出大杀器梁文锋署名暴力优化AI架构【新智元导读】2026新年第一天DeepSeek发表了梁文锋署名的重磅新论文提出了一种名为「mHC流形约束超连接」的新架构在27B参数模型上仅增加约6.7%的训练时间开销即可实现显著性能提升。重磅刚刚DeepSeek送上2026年新年第一个王炸。这次的创新是mHC流形约束超连接新架构。标题mHCManifold-Constrained Hyper-Connections链接https://arxiv.org/abs/2512.24880在这篇论文中DeepSeek提出了流形约束超连接mHC将矩阵投影到约束流形上优化残差连接空间从而确保稳定性彻底颠覆了传统AI架构认知——可以扩大残差流通道宽度residual stream width而在算力和内存上的代价却微乎其微。图1 残差连接范式示意图继Hyper-ConnectionsHC开辟「残差连接宽度可扩展」路线之后mHC直接把这一思路推上实用化的快车道。DeepSeek这次直击AI痛点给同行上了一课值得一提的是这次梁文锋署名但解振达、韦毅轩、Huanqi Cao为核心贡献者解振达为通讯作者。DeepSeek或敲响ResNet丧钟这简直是为「模型优化玩家」量身打造的王牌秘方。过去超连接hyper-connections更多只是学术圈的小众尝试。而现在DeepSeek直接把它升级为基础架构的核心设计要素。这也正是拥趸一直以来对DeepSeek的期待数学上的洞察力硬件层面的极致优化。顶级大语言模型LLM中ResNet结构或许即将被淘汰。毕竟残差流通道宽度一直是扩展模型的「烦人瓶颈」。这波操作也再次展现了DeepSeek典型的风格对同行的温和降维打击——你们两年时间都在打磨微结构调整DS-MoE挺可爱哈。来看看我们怎么玩把一个理论上看起来还不够成熟的高级原语直接做实顺手解锁游戏下一关。他们在论文中写道「我们的内部大规模训练实验进一步验证了mHC在大规模应用中的有效性。」这句话在DeepSeek的原生稀疏注意力Natively trainable Sparse AttentionNAS那篇论文里可没有。在27B模型的系统级基准测试结果中新架构mHC在绝大多数基准测试中持续超越基线模型并优于HC这证明其在大规模预训练中的有效性。换句话说DeepSeek信心十足不怕同行知道自己的「杀招」。这给了DeepSeek的铁粉Teortaxes很大信心他有九成把握mHC会进入DeepSeek V4。核心方法Manifold-Constrained Hyper-Connections (mHC)这个方法的关键目标就是在Hyper-Connections的拓扑设计下恢复身份映射属性。这样就可以在大规模训练与现实基础模型任务中体现实际价值。mHC与传统残差连接和HC的根本差异在于传统残差连接只保留简单的输入 输出形式稳定但表达受限Hyper-Connections (HC) 强化连接能力但牺牲了稳定性与效率。而mHC的思路是将Hyper-Connections的参数空间约束到特定的流形manifold上以恢复恒等映射结构。技术细节受恒等映射原则的启发mHC的核心思想是在一个特定流形上对残差映进行约束。尽管原始的恒等映射通过强制来保证训练稳定性但这种做法从根本上阻断了残差流内部的信息交互而这种交互对于充分发挥多流multi-stream架构的潜力至关重要。因此作者提出将残差映射投影到一个既能维持跨层信号传播稳定性、又能促进残差流之间相互作用的流形上从而在保证稳定性的同时保留模型的表达能力。为此他们将约束为双随机矩阵即矩阵元素非负且每一行与每一列的元素之和均为 1。形式化地记为双随机矩阵所构成的流形亦称Birkhoff多面体将约束在其投影上其定义为需要注意的是当n1时双随机条件会退化为标量1从而恢复为原始的恒等映射。选择双随机性能够带来若干对大规模模型训练具有重要意义的严格理论性质1.保范性双随机矩阵的谱范数有上界 1即。这意味着该可学习映射是非扩张的从而能够有效缓解梯度爆炸问题。2.组合闭包性双随机矩阵集合在矩阵乘法下是封闭的。这保证了跨越多层的复合残差映射仍然是双随机的从而在整个模型深度范围内保持稳定性。3.通过Birkhoff多面体的几何解释集合构成Birkhoff多面体即置换矩阵集合的凸包。这提供了清晰的几何直观残差映射可以被看作是若干置换的凸组合。从数学上看此类矩阵的反复作用会单调地增强不同信息流之间的混合程度从而有效地充当一种鲁棒的特征融合机制。参数化与流形投影在本节中作者详细介绍了mHC中、以及的计算过程。给定第l层的输入隐藏矩阵首先将其展平成向量以保留完整的上下文信息。随后遵循原始HC的建模方式得到动态映射和静态映射具体如下随后通过如下方式得到最终满足约束的映射其中表示Sigmoid函数。Sinkhorn–Knopp(⋅) 算子首先通过指数运算保证所有元素为正然后执行交替的迭代归一化过程使矩阵的行和列分别归一到1。具体而言以正矩阵作为初始值归一化迭代过程为随着迭代次数增加当时该过程收敛到一个双随机矩阵。在实验中取作为一个实用的近似值。高效的基础设施设计通过一系列严格的工程优化作者成功将mHC取n4部署到大规模模型中训练开销仅增加约 6.7%。内核融合作者观察到在mHC中当对高维隐藏状态进行操作时RMSNorm会带来显著的延迟。为此他们将「除以范数」的操作重新排序使其发生在矩阵乘法之后。该优化在数学上是等价的但在工程实现上显著提升了效率。此外我们采用混合精度策略在不牺牲计算速度的前提下最大化数值精度并将多个具有共享内存访问模式的算子融合为统一的计算内核以降低内存带宽瓶颈。基于公式10至13中给出的输入与参数设置作者实现了三个专用的 mHC计算内核。利用上述内核计算得到的系数他们又引入了两个额外的计算内核来应用这些映射。该框架能够简化复杂计算流程内核的实现并在较小工程代价下充分发挥内存带宽的潜力。重计算n路残差结构在训练过程中会引入显著的内存开销。为缓解这一问题作者在前向传播结束后丢弃mHC内核产生的中间激活并在反向传播阶段通过重新执行mHC内核不包含计算量较大的层函数F来即时重计算这些激活。因此对于连续的L_r个层组成的一个模块只需存储第一层的输入。在忽略轻量级系数、同时考虑到F中的pre-norm开销后表3总结了在反向传播中需要保留的中间激活以及在L_r个连续层中被重计算的瞬时激活。随后他们通过最小化与L_r对应的总内存占用来确定最优的块大小 。DualPipe中的通信重叠在大规模训练中流水线并行pipeline parallelism是缓解参数与梯度内存占用的标准实践。具体而言他们采用了DualPipe调度策略该策略能够有效地重叠跨节点scale-out的互连通信流量例如专家并行与流水线并行中的通信开销。然而与单流single-stream设计相比mHC中提出的n-流残差结构会在流水线阶段之间引入显著的通信延迟。此外在阶段边界处对所有Lr层重新计算mHC内核也会带来不可忽略的计算开销。为了解决这些瓶颈作者对DualPipe调度进行了扩展见下图以在流水线阶段边界实现更高效的通信与计算重叠。原文图4mHC的通信–计算重叠机制。具体而言为避免阻塞通信流他们把MLP即FFN层的内核放置在一个独立的高优先级计算流上执行。同时在注意力层中他们刻意避免使用长时间运行的持久化内核persistent kernels以防止产生长时间的停顿。该设计允许对已重叠的注意力计算进行抢占从而在保持计算设备处理单元高利用率的同时实现更加灵活的调度。此外重计算过程被与流水线通信依赖解耦这是因为每个阶段的初始激活x0l已经被缓存在本地。实验结果DeepSeek团队首先检验了27B模型的训练稳定性和收敛性。如下图a所示mHC有效缓解了在HC中观察到的训练不稳定性相比基线最终降低了0.021的损失。下图(b)中的梯度范数分析进一步证实了这种改善的稳定性表明mHC展现出显著优于HC的稳定性与基线相当。原文图5 流形约束超连接mHC的训练稳定性展示了 (a) mHC与HC相对于基线的绝对训练损失差距以及 (b) 三种方法的梯度范数。所有实验均采用27B模型。在多样化基准测试集上mHC全面提升了下游性能在所有任务上持续超越基线并在大多数任务上优于HC。值得注意的是与HC相比mHC进一步增强了模型的推理能力在BBH上实现了2.1%的性能提升在DROP上实现了2.3%的提升。这证明其在大规模预训练中的有效性。原文表427B模型的系统级基准测试结果。 本表比较了基线、HC和mHC在8个不同下游基准测试中的零样本和少样本性能。为了评估方法的扩展性DeepSeek报告了mHC在不同规模下相比基线的相对损失改进。结果表明即使在更高的计算预算下mHC依然稳健保持性能优势仅轻微衰减。此外研究团队考察了训练过程中的动态变化展示了3B模型的token扩展曲线。综合来看这些发现验证了mHC在大规模场景下的有效性。这一结论得到了我们内部大规模训练实验的进一步证实。原文图6mHC相比基线的扩展特性。 (a) 计算扩展曲线实线展示了不同计算预算下的性能差距。每个点代表模型大小和数据集大小的特定计算最优配置从3B和9B扩展到27B参数。(b) Token扩展曲线3B模型在训练期间的轨迹。每个点代表模型在不同训练token数下的性能。理想情况下单层映射应满足双随机约束即前向信号增益与后向梯度增益均等于1。然而为提升计算效率实际实现中使用的Sinkhorn-Knopp算法必须限制迭代次数这次实验中为20次。因此如下图(a)所示后向梯度增益会略微偏离1。在下图(b)所示的复合映射情况下偏离有所增加但仍保持有界最大值约为1.6。原文图7流形约束超连接mHC的传播稳定性。 本图展示了27B模型中 (a) 单层映射与 (b) 复合映射 的传播动态值得注意的是与HC中近3000的最大增益幅度相比mHC将其降低了三个数量级。这些结果表明mHC相比HC显著增强了传播稳定性确保了前向信号与后向梯度的稳定流动。此外团队观察到对于HC当最大增益较大时其他值也往往显著这表明所有传播路径普遍存在不稳定性。相比之下mHC始终产生稳定的结果。原文图8可学习映射的可视化展示了HC第一行与mHC第二行的代表性单层及复合映射。每个矩阵通过对选定序列内所有token取平均计算得出。y轴和x轴上的标签分别表示前向信号增益行和与后向梯度增益列和。更多详情请参阅原论文。参考资料https://arxiv.org/abs/2512.24880https://x.com/teortaxesTex/status/2006628917428334631