2026/5/14 5:56:36
网站建设
项目流程
初学者网站建设,网站建设 企炬,自己做淘宝客网站吗,织梦dede网站后台被挂黑链怎么办摘要
本周深入研究了DeepSeek团队提出的新型神经网络架构mHC#xff08;流形约束超级连接#xff09;。该工作旨在解决传统超级连接#xff08;HC#xff09;在训练超大规模语言模型时引发的数值不稳定#xff08;“蝴蝶效应”#xff09;问题。mHC通过对连接矩阵施加“双…摘要本周深入研究了DeepSeek团队提出的新型神经网络架构mHC流形约束超级连接。该工作旨在解决传统超级连接HC在训练超大规模语言模型时引发的数值不稳定“蝴蝶效应”问题。mHC通过对连接矩阵施加“双随机矩阵”约束在保留多通道信息交互灵活性的同时确保了信号传播的严格稳定性从而为构建更深、更宽的模型提供了可靠的架构基础。AbstractThis week focused on an in-depth study of mHC (Manifold-constrained Hyper-Connections), a novel neural network architecture proposed by DeepSeek. This work addresses the numerical instability (“butterfly effect”) issue that arises when training ultra-large language models with traditional Hyper-Connections (HC). By imposing a “doubly stochastic matrix” constraint on the connection matrices, mHC ensures strict stability in signal propagation while retaining the flexibility of multi-channel information interaction, thereby providing a reliable architectural foundation for building deeper and wider models.1、DeepSeek 新年论文 mHC 的架构学习DeepSeek 这次讨论的是关于 LLM 架构设计的主题如何在增加网络「宽度」和复杂度的同时还能保证模型训练稳定LLM 领域关于「架构」的创新主要集中在两点上一是 Muon 优化器二是 Hyper-ConnectionsHC。DeepSeek 这篇 mHC就是对后者的一个改进。1.1 复习残差连接把神经网络想象成一条信息加工的流水线——数据从一端进入经过层层处理从另一端输出结果。理论上层数越多网络能学会的特征就越复杂效果应该更好。但在早期研究者们发现当网络层数太深时效果反而会变差。 在神经网络中信息穿过几十、几百层后也会逐渐「迷失」或「损耗」导致模型难以训练。我们用一个不太严谨的例子打个比方。假如我们的任务是将一份中文的商业计划书原始输入通过一系列专家处理最终变成一份可用于路演的、地道的英文 PPT最终输出。为此我们构建了一个线性的流水线每一个环节就好像神经网络中的一层第一环初级翻译。将中文计划书翻译成基础英文稿。第二环语法润色。拿到初级翻译的稿子修改语法和句式。第三环商业术语专家。拿到润色后的稿子将普通词汇替换为地道的商业术语。第四环PPT 设计师。拿到最终文本将其设计成 PPT。这个链条是单向且封闭的。如果「语法润色」环节误解了初级翻译的某个句子那么这个错误就会一直传递下去。商业术语专家和 PPT 设计师都只能基于这份可能已存在早期错误的文本工作。最终 PPT 可能看起来精美但核心意思已经偏离了原计划书。更糟糕的是当老板损失函数说「这里意思错了」你很难回溯到底是哪个环节最初理解有误梯度消失/爆炸导致整个团队网络难以有效改进。残差连接的提出就是为了解决这个问题。它的核心思想非常直观每一层不再传递完整却可能失真的信息而只传递一个易于学习的、基于原始信号的「修正值」。还是拿上面那个流水线举例这就像你改变了协作规则建立了一个 「中央资料库 任务清单」 系统。原始的中文计划书以及每一环处理后的中间版本被实时存档对后续所有环节公开、可随时查阅。新的任务流程变成了第一环初级翻译。他不再生产完整的英文稿而是生产一份 「翻译修改建议」 。这份建议对照着原始中文指出「这里 AAA 这个词我建议译为 BBB」。第二环语法润色。他同时看到两份材料原始中文计划书和初级翻译的修改建议。他的任务不再是重写整个文档而是专注于语法层面提出自己的「语法修饰建议」。第三环及以后 以此类推商业术语专家、PPT 设计师等都遵循此模式。他们各自专注于自己专业领域的「修正」同时始终能以原始资料和之前所有的修正建议为参考。最后由一个整合器将原始中文计划书与所有环节的「修正建议」清单汇总一步步应用所有专业修正生成最终的地道英文 PPT。所以残差连接就像是为深度网络的每一层都配备了随时可查的原始蓝图和只修改专业部分的工作指令。具体来说它不再要求某一层直接拟合一个复杂的输出而是改为拟合 「输出和输入之间的差值残差」。然后把这个差值加上这一层原始的输入作为最终的输出。用数学公式表示就是用图来表示残差连接就是右侧那条曲线在每一层原始信号 直接通向下一层恒等映射而神经网络 只需要学习「增量」部分——也就是所谓「残差」。这种设计让信号可以无损地传到很深的网络是目前所有 LLM 的标配。1.2 改进残差连接在现代的深度学习架构设计中几乎无处不在。业内的人一个惯常的比喻就是这是一条「信息的高速公路」。但用多了大家也逐渐发现这条单车道的高速公路存在一些局限性信息的宽度维度C是固定的如果想增加信息容量通常只能把路修得更宽增加C但这会急剧增加计算量。为了解决这个问题有研究者提出了超级连接Hyper-Connections, HC 的概念。它的思路是既然单车道不够用我们在残差流里开辟多条车道n条。每条车道可以专注于传递不同类型或角度的信息。由于有了 n 条车道我们需要「交通指挥系统」来管理车道之间的变道和汇合。用具体做法是把输入 x 扩展成n个副本形成一个矩阵。1.4 痛点蝴蝶效应HC 听起来很完美但在训练超大规模模型比如 27B 参数时由于蝴蝶效应它也会出现非常不稳定的现象。核心问题在于HC 破坏了「恒等映射」。传统残差连接的「单车道」之所以稳定是因为它遵循一个铁律在每一层的出口原始输入信号必须原封不动地乘以系数 1汇入车流。这就像高速公路上有一个 「免检专用通道」确保最基础的货物原始信息一定能无损送达终点。也就是说在公式 y1⋅xF(x)那个系数 1保证了无论网络多深信号原本的强度都能保留下来有助于「数值稳定性」。而 HC 为了让信息在多车道间灵活交互引入了一个可学习的矩阵来管理车道间的信息汇合。这相当于在每个出口把那个保证无损的「免检通道」拆掉了换成了一个权力很大的「可变收费站」。这个收费站不再简单地放行原始货物而是有权对所有货物进行重新加权、打包和缩放。这个缩放系数是通过训练学习出来的。用公式来表述就变成了类似1.5 解法流形约束mHC这就是 DeepSeek 最新这篇 mHC 论文的核心贡献流形约束的超级连接 (mHC) 。「流形」是一个几何学概念听上去比较唬人。就好比你要学习打太极拳。全世界的太极拳有无数种可能的身体姿势但真正的「太极拳」并不是任意乱动它被定义在一个由特定套路和规则构成的「标准动作库」里。这个标准动作库就是「太极拳」这个运动的流形。在库内在流形上你的动作必须符合太极拳的规则。你可以自由地从「野马分鬃」变换到「白鹤亮翅」但始终是标准、稳定的太极拳。在库外脱离流形你的动作可能变成街舞、广播体操或者四不像的乱动。回到 mHC 上来还记得那个会导致「蝴蝶效应」的可变收费站吗mHC 的解决方案不是拆掉它而是给它安装一套绝对可靠的「智能红绿灯与流量控制系统」并颁布三条核心交规第一条交规非负通行 所有从一条车道转到另一条车道的「车辆转换比例」必须是正数或零。第二条交规出站均衡 对于每一个出口下一层的每条新车道从所有旧车道汇集而来的车流总和必须恰好是100% 的完整车流每行之和为 1。这确保了输出的强度稳定。第三条交规进站均衡 对于每一个入口当前层的每条旧车道其所有车辆必须被全部分配到各个新车道一点不剩每列之和为 1。这避免了车辆在某个节点堆积或丢失。当一个收费站矩阵同时满足这三条规则时它就变成了一个 「双随机矩阵收费站」 。它的魔力在于无论有多少车辆信息通过它只是重新规划它们的路径而整个交通系统的总车辆数信号总强度绝对守恒既不会增加造成爆炸也不会减少导致消失。具体而言控制「蝴蝶效应」因为总车流守恒无论这个收费站连续工作 100 层还是 1000 层信号强度都被牢牢锁死不可能出现指数级的失控增长或衰减。这恢复了传统单车道高速中「恒等映射」那个系数 1的稳定性保障。保留灵活性车流虽然总量不变但可以在多条车道间进行极其复杂的重新编组和混合。A 道的「轿车」一种特征和 B 道的「卡车」另一种特征可以按任何比例合并到新的智能车队中实现丰富的信息交互。深层可堆积一个关键数学性质是多个「双随机矩阵收费站」串联工作整体效果依然是一个双随机矩阵收费站。这意味着这套稳定规则可以无限传递网络想建多深就建多深。总结本周系统学习了DeepSeek关于mHC的前沿研究核心在于解决大规模模型训练中的根本性架构挑战。