医院关于申请网站建设的请示网页设计员的工作内容
2026/4/9 14:04:36 网站建设 项目流程
医院关于申请网站建设的请示,网页设计员的工作内容,南昌做网站哪家好,wordpress 存储引言 模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下#xff0c;用更少的训练步数训练一个更大的模型#xff0c;往往比用更多的步数训练一个较小的模型效果更佳。 MOE 整体介绍 混合专家模型 (MoE#xff1a;Mixed Expert Models) #xff1a;一种稀疏激…引言模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下用更少的训练步数训练一个更大的模型往往比用更多的步数训练一个较小的模型效果更佳。MOE 整体介绍混合专家模型 (MoEMixed Expert Models) 一种稀疏激活的深度学习架构范式核心思想是将复杂任务拆解为多个子任务由专业化的 “专家子网络” 并行处理再通过 “门控网络” 动态选择并融合 Top-K 专家的输出显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下您可以显著扩大模型或数据集的规模。特别是在预训练阶段与稠密模型相比混合专家模型通常能够更快地达到相同的质量水平。相比较于传统稠密模型基础 MOE 的特点与稠密模型相比 MoE预训练速度更快。与具有相同参数数量的模型相比具有更快的推理速度。需要大量显存因为所有专家系统都需要加载到内存中。作为一种基于 Transformer 架构的模型混合专家模型主要由两个关键部分组成:稀疏 MoE 层(专家模块 Experts): 这些层通常代替了传统 Transform 模型中的前馈网络 (FFN) 层(而非 FFN 子模块子模块是包含 AddNorm 部分的)形成 MoE-Transformer。为什么替换FFN 层呢下图为 FFN 层对于向量信息的维度处理的可视化稠密 FFN 的痛点原本 transform 中的 FFN 需要处理所有类型的 token如下图 2所示一段话中不同类型的 token但所有的输入类型都用同一套参数参数所包含的信息是有限的输入类型是多样的且推理时所有参数都要参与计算(如下图 1)大模型下计算成本极高。MOE 的优势用多专家 FFN 门控 替换单 FFN实现稀疏激活,即每个 token 只激活 1~2 个专家拥有多个专家(每个专家都有一套完成 FFN)虽然总参数量大幅提升但推理计算量只和 K激活专家数成正比在不增太多算力的前提下扩大模型能处理的输入任务类型。专家网络的本质通俗理解就是把原始的 1 个 FFN(两层)拆成 N 个结构相同、参数独立的 FFN每个 FFN 就是一个「专家」(也可以把 FFN 替换成其他可进行专业化分工的子网络)公式FFN(x)W2⋅σ(W1⋅xb1)b2对应专家公式ei(x)W2(i)⋅σ(W1(i)⋅xb1(i))b2(i) i 是表示第 i 个专家w 和 b 表示权重和偏置w1 和 2表示第几层门控网络或路由: 这个部分用于决定哪些token 被发送到哪个专家其本质也是一种前馈神经网络FFNN它根据特定的输入来选择专家。它输出概率并利用这些概率来选择最匹配的专家例如在下图 1中“More”这个 token可能被发送到第二个专家而“Parameters”这个token被发送到第一个专家。有时一个token甚至可以被发送到多个专家。token的路由方式是 MoE 使用中的一个关键点因为路由器由学习的参数组成并且与网络的其他部分一同进行预训练。路由器与专家其中只有少数几个被选中一起构成了 MoE 层且完整流程如下路由如何实现选择专家的方法普通 MOE核心规范公式专家网络如上 4.1.2 公式所示 ei(x)门控网络无噪声logits W * x bWb 就是门控网络的权重、偏置单层线性层将d_model映射到N维对应N个专家x 是输入logits 就是N个专家的原始匹配分数分数越高越适合处理当前 token。选 Top-K 专家ρ softmax(logits) ρ_i 表示第i个专家的初始权重代表匹配度概率得到选中的专家索引topk_idx argtopk(ρ, K)K通常为 1 或 2对选中专家重新归一化权重 ρ^topk ρ_tok / (∑(i∈topk_idx) ρ^mask,i)例如ρ [0.5, 0.3, 0.2]3 个专家的权重K2topk_idx argtopk (ρ,2) → [0,1]第 0、1 个专家ρ_topk [0.5, 0.3]原始 Top-K 权重和为 0.8≠1ρ^topk [0.5/0.8, 0.3/0.8] [0.625, 0.375]归一化后和为 1才能加权融合。输出加权融合y ∑(i∈topk_idx)ρ_i⋅ei(x) ρ^i 是第i个选中专家的归一化权重 ei(x)第i个专家的输出。完整 MOE 层输出含 AddNormy_final LayerNorm(x y)基础平衡损失均方误差型L ∑ (i 1~ N ) (Fi - 1 / N) ^2Fi 1 / B * ( ∑ (j1~ B) || (i∈topk_idxj))BBatch 大小一批处理的 token 数||(⋅)指示函数专家i被选中则||函数结果为 1否则为 0Fi专家i在当前 Batch 中被选中的频率1 / N 理想的均匀选中频率每个专家被选概率均等均方误差属于辅助平衡损失主损失还是任务类型决定的损失比如分类的交叉熵损失基础 MOE 结构的缺陷专家负载不均门控易偏好少数专家其他专家闲置基础平衡损失效果有限Token 扎堆所有 Token 都选少数专家导致这些专家计算过载门控打分模糊 / 极端要么权重太平均分工不明确要么 logits 爆炸梯度消失分布式扩展难专家多了之后无法高效分布到多 GPU/TPU(基础 MOE 只是设计之初没考虑并行不是不能并行)计算冗余K2 时仍有部分计算浪费推理速度不如稠密模型。例子基础 MOEK2无噪声 / 并行均方平衡损失 主任务简单文本分类Lmain为交叉熵损失 专家结构每个专家是简单 FFNei(x)W2(i)⋅GELU(W1(i)⋅x)W1/W2为随机初始化的 2×4/4×2 矩阵。 专家数N4E1/E2/E3/E4输入 TokenT1[1,2], T2[3,4] 门控打分 T1 的 logits W*T1b[0.8,0.6,0.3,0.1] → ρ1softmax([0.8,0.6,0.3,0.1])[0.4,0.3,0.2,0.1] T2 的 logits W*T2b[0.2,0.7,0.5,0.4] → ρ2softmax([0.2,0.7,0.5,0.4])[0.1,0.4,0.25,0.25] 选专家 T1 的 topk_idx[0,1] → ρ^1,topk[0.4/(0.40.3),0.3/(0.40.3)][0.571,0.429] T2 的 topk_idx[1,2] → ρ^2,topk[0.4/(0.40.25),0.25/(0.40.25)][0.615,0.385] 专家计算 T1 激活 E1/E2 → e1(T1)[0.5,0.6]e2(T1)[0.7,0.8] T2 激活 E2/E3 → e2(T2)[0.9,1.0]e3(T2)[1.1,1.2] 加权融合 T1 的y10.571×[0.5,0.6]0.429×[0.7,0.8][0.586,0.686] T2 的y20.615×[0.9,1.0]0.385×[1.1,1.2][0.977,1.077] 残差归一化 y1,finalLayerNorm(T1y1)LayerNorm([1.586,2.686]) y2,finalLayerNorm(T2y2)LayerNorm([3.977,5.077]) 训练损失 主损失Lmain交叉熵(y_final,标签)0.8 平衡损失f10.5E1 只被 T1 选f21E2 被 T1/T2 都选f30.5E3 只被 T2 选f40E4 没被选 L_balance(0.5−0.25)2(1−0.25)2(0.5−0.25)2(0−0.25)20.06250.56250.06250.06250.75 总损失L_total0.80.1×0.750.875λ0.1 反向传播更新门控 选中专家的参数E4 无梯度未激活。GShard在基础 MOE 上的增量优化解决「负载不均 分布式扩展 分工模糊」依然是计算每个专家原始匹配分数logits_n 带噪音的 logits logits_n W * x b εε 为随机噪声一般服从高斯分布或者均匀分布加入噪声是为了推理阶段噪声门控退化为普通 TopK即ε为 0KeepTopK 也就退化成了普通的 TopK选 Top-K 专家ρ^noisy softmax(logits_n) ∑i ρ_i 表示第i个专家的初始权重代表匹配度概率得到选中的专家索引 topk_idx argtopk(ρ^noisy,K)KeepTopK 核心生成掩码仅保留选中专家的权重其余置 0即Mask_i 1 当 i ∈topk_idx 的时候如果不属于则为 0得到 ρ^mask ρ^noisy ⊙ Mask_i ⊙表示矩阵对应位置相乘不是矩阵乘法归一化保留的权重 ρ^topk ρ^mask / (∑i∈topk_idx ρ^mask,i)ρ^topk被选中的专家的重新归一化权重和为 1避免权重稀释确保融合结果有效GShard 熵型负载均衡损失替代基础 MOE 的均方误差损失L_gshard - 1 / N ∑ (i 1~ N ) Fi * ln(Fi)原理样本分散程度越大熵越大专家选中频率越均匀损失最小化时fi→1/N负载完全均衡通俗理解就是你得到的 fi 的值分布越均匀L_gshard 的绝对值越大但是L_gshard损失越小(负数)解决问题基础均方误差损失不平滑专家负载仍不均衡门控熵损失基础 MOE 无GShard 新增L_entropy - 1 / B * ( ∑ (j1~ B) (i i ~ N ) ρ^ij * ln(ρ^ij))ρ^ij 第j个 Token 对第i个专家的权重原理损失越小门控对每个 Token 的专家权重越集中比如只给 Top-K 高权重分工更精准。解决问题门控权重太平均专家分工不明确总损失 L L_main λ^g * L_gshard λ^e * L_entropyL_main 是主任务的损失不是均方损失那是辅助平衡损失λ两个超参数是用来平衡这两个损失的Expert Choice 专属 Token 均衡损失基础 MOE 无若用「专家选 Token」L ∑(i 1 ~ N) (Ci / B - 1 / N)^2Ci专家i选中的 Token 数解决专家选 Token 时避免少数专家选走大部分 Token。Expert Choice专家选 Token: 反向让专家主动挑适合自己的 Token替代「Token 选专家」解决选专家不均衡的问题8 和 9 的区别在于 8 适用通用场景Token 主动选专家9 是Token 扎堆选少数专家时反向让专家挑 Tokentoken 选专家1. Token 数量少10 万2. 专家数量多83. 负载相对均匀 4.分类任务Token 少用 Token 选专家。小规模 MOE专家选 token. Token 数量多100 万2. 专家数量少≤83. Token 扎堆选少数专家负载不均4. 分布式训练多 GPU5生成任务Token 多用专家选 Token总结优化方向加噪声让门控「多试试不同专家」让专家「主动挑 Token」避免 Token 扎堆用熵型损失让负载均衡更平滑用熵损失让门控「选得更准」加专家并行让 MOE 能扩展到万亿级参数复用基础 MOE 的基础信息只显示增量示例过程 噪声门控训练阶段 T1 的 logits_noisy [0.8,0.6,0.3,0.1] [0.05, -0.02, 0.01, -0.03] 高斯噪声ε∼N(0,0.01)→ [0.85, 0.58, 0.31, 0.07] T1 的ρ1,noisysoftmax([0.85,0.58,0.31,0.07])[0.42,0.29,0.2,0.09] T1 的 topk_idx[0,1]仍选 E1/E2但权重略有变化 专家并行部署 E1→GPU1E2→GPU2E3→GPU3E4→GPU4 T1 的计算T1→GPU1E1 GPU2E2→ 结果汇总到主 GPU T2 的计算T2→GPU2E2 GPU3E3→ 结果汇总到主 GPU 熵型平衡损失替代均方损失 f10.5,f21,f30.5,f40 L_balance_GShard−1/4(0.5log0.51log10.5log0.50log0)−1/4(−0.34660−0.34660)0.1733 门控熵损失 T1 的ρ1,noisy[0.42,0.29,0.2,0.09] → 熵H1−(0.42log0.420.29log0.290.2log0.20.09log0.09)1.25 T2 的ρ2,noisy[0.11,0.39,0.26,0.24] → 熵H21.3 L_entropy−1/2(1.251.3)−1.275取负后损失为 1.275 总损失 Ltotal0.80.1×0.17330.05×1.2750.80.01730.06380.8811 核心效果噪声让 E4 有概率被选中比如 T1 的ρ1,noisy中 E4 权重从 0.1→0.09仍低但非 0熵损失让门控权重更集中专家并行提升计算速度。Switch Transformers 在基础 MOE/GShard 上的极简增量优化解决「计算冗余 训练不稳定 超大规模效率」基于基础 MOE 的方法下面主要列出改动的地方topk_idx argtopk(ρ,1) (仅选1个专家)yρ_i⋅ei(x)(仅1个专家的输出无求和)Switch 专属平衡损失替代基础 / GShard 的平衡损失K1 专属L_balance N / B^2 * ∑(i1~N) Ci ^ 2 −1Ci专家i被选中的 Token 数K1 时Ci就是专家i处理的 Token 总数原理理想状态CiB/N代入后L_balance0损失最小化时所有Ci相等负载完全均衡Z-lossSwitch 专属基础 / GShard 无Lz 1 / B * ∑(j1~B) || logits_j || _2^2logits_j第j个 Token 的门控原始 logits∥⋅∥范数衡量向量的 “长度 / 大小”∥⋅∥2是L2 范数欧几里得距离第一个 2表示 L2 范数最常用的范数第二个 2表示对 L2 范数取平方简化计算效果和 L2 范数一致。原理把 logits 的尺度压在合理范围 logits 过大导致 softmax 后权重趋近 0/1梯度消失。。Switch 总损失: L L_main λ^b * L_balance λ^z * Lz总结优化内容把 K 改成 1每个 Token 只找 1 个专家推理速度接近稠密模型显存占用大幅降低用专属平衡损失让 K1 时专家负载更均匀加 Z-loss解决门控 logits 爆炸的训练稳定性问题极简并行设计让万亿级 PaLM 模型能高效训练 ——解决了基础 MOE 的计算冗余、训练不稳定、超大规模效率低。通俗比喻思路就是门控负责挑 “最适合Token的 1 个专家”Switch 损失强制要求每个专家的处理的 token 数量差不多Z-loss防止专家打分太极端导致误判 toekn 的最优最优专家。依旧基础假设信息同基础 MOE Switch FFNK1 T1 的ρ1[0.4,0.3,0.2,0.1] → topk_idx[0]仅选 E1 T2 的ρ2[0.1,0.4,0.25,0.25] → topk_idx[1]仅选 E2 归一化ρ^1,topk1仅 1 个专家权重为 1ρ^2,topk1 融合y11×e1(T1)[0.5,0.6]y21×e2(T2)[0.9,1.0] Switch 平衡损失K1 专属 C11E1 被 T1 选C21E2 被 T2 选C30C40 L_switch_balance4/(2^2) *(1^21^20^20^2)−12−11 Z-loss防 logits 爆炸 T1 的 logits[0.8,0.6,0.3,0.1] → ∥logits1∥_2^20.8^20.6^20.3^20.120.640.360.090.011.1 T2 的 logits[0.2,0.7,0.5,0.4] → ∥logits2∥_2^20.040.490.250.160.94 Lz1/2*(1.10.94)1.02 总损失 Ltotal0.80.1×10.05×1.020.80.10.0510.951 核心效果K1 让计算极简无需加权求和Switch 损失保证 E1/E2 各接 1 个 Token负载均匀Z-loss 把 logits 长度压在 1 左右避免爆炸。存在的挑战训练挑战: 虽然 MoE 能够实现更高效的计算预训练但它们在微调阶段往往面临泛化能力不足的问题长期以来易于引发过拟合现象。推理挑战: MoE 模型虽然可能拥有大量参数但在推理过程中只使用其中的一部分这使得它们的推理速度快于具有相同数量参数的稠密模型。然而这种模型需要将所有参数加载到内存中因此对内存的需求非常高。以 Mixtral 8x7B 这样的 MoE 为例需要足够的 VRAM 来容纳一个 47B 参数的稠密模型。之所以是 47B 而不是 8 x 7B 56B是因为在 MoE 模型中只有 FFN 层被视为独立的专家而模型的其他参数是共享的。此外假设每个令牌只使用两个专家那么推理速度 (以 FLOPs 计算) 类似于使用 12B 模型 (而不是 14B 模型)因为虽然它进行了 2x7B 的矩阵乘法计算但某些层是共享的。补充使用 MOE 结构的主流大模型Mixtral 8x7B8 个专家每个专家 7B 参数K2每个 token 激活 2 个专家DeepSeek MoE16 个专家引入 “共享专家”所有 token 都激活的专家Llama 4 MoE采用动态专家数量优化负载均衡关键变体共享专家在 MoE 层中加入少量共享专家如 1-2 个所有 token 都会激活这些专家作用提供基础能力防止冷门问题没有专家处理MoE-Layer Placement不是所有 FFN 层都替换为 MoE 层而是在关键层使用如 Llama 4 MoE 在中间层使用MMoEMulti-gate Mixture-of-Experts多任务学习场景每个任务有独立的门控网络参考1 2

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询