住房和城乡建设部的网站网页传奇开服表
2026/6/7 8:40:56 网站建设 项目流程
住房和城乡建设部的网站,网页传奇开服表,app程序开发定制,可以做ps兼职的网站来源#xff1a;机器之心就在十几个小时前#xff0c;DeepSeek 发布了一篇新论文#xff0c;主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》#xff0c;与北京大学合作完成#xff0c;作者中同样有梁文锋署名。论文…来源机器之心就在十几个小时前DeepSeek 发布了一篇新论文主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》与北京大学合作完成作者中同样有梁文锋署名。论文地址https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf简单总结一波这项新研究要解决的问题目前大语言模型主要通过混合专家MoE来实现稀疏化这被称为「条件计算」。但是现有的 Transformer 缺少原生的知识查找机制只能被迫通过计算过程低效地模拟检索行为。针对这一现状DeepSeek 提出了条件记忆conditional memory从而与 MoE 的条件计算互补并通过引入一个新模块 Engram 来实现。目前模块「Engram」相关的实现已经上传到了 GitHub。项目地址https://github.com/deepseek-ai/Engram这让网友们感慨「DeepSeek is back」此外结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》我们可以明确的是 DeepSeek v4 的模样愈发清晰就等上新了除了条件计算MoELLM 还需要一个独立的条件记忆 EngramMoE 模型通过条件计算实现了模型容量的扩展但现有的 Transformer 架构缺乏原生的知识查找原语只能通过计算过程低效地模拟检索行为。为了解决这一问题DeepSeek 提出了条件记忆conditional memory这一与条件计算互补的稀疏化维度并通过 Engram 模块加以实现。Engram 在经典 -gram 嵌入的基础上进行了现代化改造使其能够以 O (1) 时间复杂度完成知识查找。通过形式化提出稀疏性分配问题DeepSeek 还发现了一条呈 U 型的扩展规律用以刻画神经计算MoE与静态记忆Engram之间的最优权衡关系。在这一规律的指导下DeepSeek 将 Engram 扩展至 270 亿参数规模并在严格等参数量、等 FLOPs 的条件下其整体性能显著优于纯 MoE 基线模型。尤为值得注意的是尽管记忆模块本身主要被用于提升知识检索能力如 MMLU 提升 3.4、CMMLU 提升 4.0但 DeepSeek 观察到其在通用推理能力如 BBH 提升 5.0、ARC-Challenge 提升 3.7以及代码与数学推理任务HumanEval 提升 3.0、MATH 提升 2.4上带来了更为显著的增益。进一步的分析表明Engram 能够将静态知识的重建负担从模型的浅层中剥离出来从而有效加深网络用于复杂推理的有效深度。此外通过将局部依赖关系交由查表机制处理Engram 释放了注意力机制的容量使其能够更专注于全局上下文建模从而显著提升了长上下文检索能力例如 Multi-Query NIAH 的准确率从 84.2 提升至 97.0。最后Engram 在系统层面同样展现出基础设施感知的高效性其确定性的寻址方式支持在运行时从主机内存进行预取几乎不会带来额外的性能开销。DeepSeek 认为条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语。Engram 架构如下其设计目标是在结构上将静态模式存储与动态计算过程从 Transformer 主干网络中分离出来从而对其进行增强。该模块对序列中每一个位置依次执行两个功能阶段检索与融合。在运行过程中DeepSeek 首先对当前位置的后缀 N-gram 进行提取与压缩并通过哈希机制以确定性的方式检索对应的静态嵌入向量。随后这些被检索到的嵌入会在当前隐藏状态的调制下进行动态调整并进一步通过一个轻量级卷积操作加以精炼。最后Engram 与多分支架构进行集成。基于哈希 -gram 的稀疏检索这一阶段的目标是将局部上下文映射到静态记忆条目这一过程主要包括分词器压缩以及通过确定性哈希机制来检索对应的嵌入表示。分词器压缩为了最大化记忆单元的语义密度DeepSeek 引入了一层词表投影vocabulary projection。为此他们预先设计了一个映射函数其将原始 token ID 映射为基于文本规范化等价关系例如使用 NFKC 规范化、统一大小写等得到的规范化标识符canonical identifiers。在实际应用中对于一个规模为 128k 的分词器该过程能够将有效词表规模缩减约 23%详见附录 C。多头哈希直接对所有可能的 N-gram 组合空间进行参数化在计算和存储上都是不可行的。借鉴 Tito Svenstrup 等2017的工作DeepSeek 采用了一种基于哈希的近似方法。为了降低哈希冲突的影响对于每一种 N-gram 阶数 n引入 K 个相互独立的哈希头。上下文感知门控前一阶段通过哈希 -gram 从条件记忆中检索得到的嵌入向量本质上提供的是一种与具体语境无关的静态先验信息。然而正因为其静态属性这些嵌入缺乏对当前上下文的自适应能力并且在实际应用中可能受到哈希冲突或词项多义性带来的噪声干扰。为此DeepSeek 在检索之后引入了一种上下文感知的门控机制其设计灵感来源于注意力机制。系统效率计算与存储的解耦在带有记忆机制的模型中规模扩展往往受到 GPU 高带宽显存HBM容量有限的制约。然而Engram 所采用的确定性检索机制天然支持将参数存储与计算资源进行解耦。不同于 MoE 依赖运行时隐藏状态进行动态路由Engram 的检索索引完全由输入 token 序列决定。这种可预测性使得针对训练与推理阶段的专门优化策略成为可能如图 2 所示。在训练阶段为容纳大规模嵌入表DeepSeek 采用标准的模型并行方案将嵌入表分片分布在多张 GPU 上。在前向传播过程中通过 All-to-All 通信原语收集被激活的嵌入行在反向传播阶段则将对应梯度分发回各个分片从而使总可用记忆容量能够随加速器数量线性扩展。在推理阶段这种确定性特性进一步支持一种预取–重叠prefetch-and-overlap策略。由于在前向计算开始之前即可确定所需访问的记忆索引系统能够通过 PCIe 从容量充足的主机内存中异步地预取嵌入向量。为有效掩蔽通信带来的延迟Engram 模块被放置在主干网络中的特定层级利用其前序 Transformer 层的计算作为缓冲从而避免 GPU 计算停顿。这也要求一种硬件 — 算法协同设计hardware–algorithm co-design一方面将 Engram 放置得更深可以拉长用于隐藏通信延迟的计算窗口另一方面从建模效果来看较早地介入以卸载局部模式的重建更为有利。因此Engram 的最优插入位置必须同时满足建模性能与系统时延两方面的约束。此外自然语言中的 -gram 天然遵循 Zipfian 分布即少量高频模式贡献了绝大多数的记忆访问。这一统计特性启发研究者可以构建一种多级缓存层次结构Multi-Level Cache Hierarchy将高频访问的嵌入缓存于更快的存储介质中如 GPU HBM 或主机 DRAM而将大量低频的长尾模式存放在容量更大但速度较慢的存储介质中如 NVMe SSD。这种分层设计使 Engram 能够扩展到极大规模的记忆容量同时对有效访问延迟的影响保持在最低水平。U 型扩展规律与稀疏性分配作为「条件记忆」的一种具体实现Engram 在结构上与 MoE 专家提供的「条件计算」形成了互补。本节旨在探究这种二元特性Duality的扩展属性以及如何最优地分配稀疏容量。具体而言本项研究由两个核心问题驱动有限约束下的分配在总参数量和训练计算量固定即等参数、等 FLOPs的情况下应该如何在 MoE 专家与 Engram 嵌入之间划分稀疏容量无限记忆范式考虑到 Engram 具有不随规模增长Non-scaling的查找开销如果放宽记忆预算或进行激进扩展Engram 自身会表现出怎样的扩展行为首先来看 MoE 与 Engram 之间的最优分配比例。在计算匹配公式时DeepSeek 使用以下三个参数度量来分析这个权衡P_tot总的可训练参数不包括词汇嵌入和语言模型头。P_act每个 token 激活的参数。这一量度决定了训练成本FLOPs。不激活的参数表示可用于扩大模型大小而不增加计算成本的「自由」参数预算例如未选择的专家或未检索的嵌入。DeepSeek 在每个 FLOPs 预算内保持 P_tot 和 P_act 固定这样模型具有相同数量的参数和相同的每 token FLOPs。对于 MoEP_act 由选定的 top-k 专家决定而未选择的专家的参数贡献给 P_sparse。对于 Engram每个 token 只检索固定数量的槽slots因此增加嵌入槽的数量会增加 P_tot但不会增加每 token 的 FLOPs。其次是「在无限内存模式下的 Engram」。在固定参数预算下优化分配之外DeepSeek 探索了互补的设置激进的内存扩展。这个研究的动机来自于 Engram 独特的能力能够将存储与计算解耦。DeepSeek 使用一个固定的 MoE 主干具有 P_tot ≈ 3B 和 P_act 568M并训练了 100B 个 token 以确保收敛。在此基础上附加了一个 Engram 表并调整了槽的数量 M 从 2.58 × 10⁵ 到 1.0 × 10⁷增加最多约 13 亿参数。下图 3左揭示了验证损失与分配比例 之间一致的 U 形关系。值得注意的是即使 MoE 分配减少到仅 ≈ 40%即 5.7B 模型为 46 个专家9.9B 模型为 43 个专家Engram 模型仍然达到了与纯 MoE 基准 100%相当的性能。此外纯 MoE 基准证明是次优的将大约 20%-25% 的稀疏参数预算重新分配给 Engram 获得最佳性能。定量分析中在 10B 范围内 6 × 10²⁰验证损失从 1.7248 100%改善到 1.7109接近 ≈ 80% 时的最优值Δ 0.0139。值得注意的是这一最优点的位置在不同的范围内稳定 ≈ 75%-80%表明在固定稀疏性下各个规模之间有一个稳健的分配偏好。这一观察到的 U 形确认了两种模块之间的结构互补性。图 3右展示了增加内存槽数量会显著改善验证损失并且这一改进在整个范围内持续稳定。该曲线遵循严格的幂律在对数空间中线性这表明 Engram 提供了一个可预测的扩展旋钮更大的内存在不需要额外计算的情况下继续带来收益。关键一点是在扩展效率方面虽然 OverEncoding 通过更大的内存表受益但 Engram 在相同的内存预算下释放了更大的扩展潜力。结合分配规律来看这些结果验证了条件记忆作为稀疏容量的独立、可扩展轴的作用它补充了 MoE 的条件计算。实验结果通过提出的 Engram 架构以及经验推导出的分配法则DeepSeek 将 Engram 扩展至数十亿参数规模以验证其在真实语言模型预训练中的有效性。总共训练了以下四种模型Dense-4B总参数量 41 亿MoE-27B总参数量 267 亿Engram-27B总参数量 267 亿以及 Engram-40B总参数量 395 亿。所有模型均采用完全相同的数据训练流程相同的 token 预算及顺序且在激活参数量上严格匹配。关于实验设置所有模型均在包含 2620 亿 token 的语料库上进行预训练并采用了 DeepSeek-v3 的分词器其词表大小为 128k。DeepSeek 在涵盖语言建模、知识、推理、阅读理解以及代码 / 数学的多样化基准测试集上对模型进行评估。对于每项基准测试均遵循标准的提示词协议和评估指标。先来看大规模预训练的实验结果如下表 1 所示稀疏架构展示了比密集模型更优的扩展规律。在相同的训练计算预算下所有三种稀疏变体MoE-27BEngram-27B/40B在所有基准测试中显著超越了 iso-FLOPs 的 Dense-4B 基准。更重要的是Engram-27B 在 iso - 参数和 iso-FLOPs 的 MoE-27B 基准上持续取得改进。有趣的是这些提升并不限于知识密集型任务例如MMLU: 3.0MMLU-Pro: 1.8CMMLU: 4.0在这些任务中内存容量直观上是有益的。此外还观察到在一般推理领域例如BBH: 5.0ARC-Challenge: 3.7DROP: 3.3以及代码和数学推理任务例如HumanEval: 3.0MBPP: 1.6GSM8K: 2.2MATH: 2.4中改进更加显著。扩展到 Engram-40B 进一步减少了预训练损失并提高了大多数基准测试的性能。尽管它尚未在每个任务上严格超越 Engram-27B但这可能是由于训练不足的结果。此外Engram-40B 与基准模型之间的训练损失差距在训练结束时继续扩大表明扩展的内存容量尚未在当前的 token 预算内完全饱和。接下来是长上下文训练。通过将局部依赖建模卸载至静态查找Engram 架构为处理全局上下文保留了宝贵的注意力容量。DeepSeek 通过进行长文本扩展训练对这一结构性优势进行了实验验证。通过采用严密的评估协议将架构设计带来的贡献与基础模型本身的能力剥离开来证明了 Engram 在长程检索和推理任务中带来了显著的性能增益。DeepSeek 首先解耦基础模型能力与架构设计之间的影响其次进行受控对照分析结果如下表 2 所示主要得出了以下两个结论一是超越注意力机制的长文本能力。虽然注意力机制和位置编码为上下文处理提供了结构基础但实验结果表明长文本性能并非仅由架构先验决定。通过观察 Engram 的演进轨迹从 41k 步到 50k 步即使在控制相同模型架构和固定长文本扩展阶段计算预算的前提下长文本性能仍随预训练进程单调提升。这表明长文本性能与基础模型的通用建模能力存在内在耦合。因此严谨的架构对比必须通过对齐「基础模型损失Loss」而非仅仅对齐「训练步数」来控制这一混淆变量。二是受控设置下的架构优越性。基于上述原则DeepSeek 将 Engram 与 MoE 基准模型进行了对比测试。在控制基础能力的前提下Engram 模块的效率增益变得十分显著等损耗设置Iso-Loss Setting41k 步 vs. 基准该设置严格分离了架构效率的影响。当对比 Engram-27B46k 步与完整训练的 MoE-27B50k 步即预训练损失完全对齐的两个模型时Engram 表现出显著增益。具体而言它在复杂检索任务中大幅超越基准模型例如多查询「大海捞针」 NIAH97.0 vs. 84.2变量跟踪 VT87.2 vs. 77.0。等计算量设置Iso-FLOPs Setting50k 步 vs. 基准在标准的等计算预算下Engram-27B50k 步进一步拉大了差距在所有指标上均实现了顶尖性能。极端设置约 82% 计算量即使是提前停止训练的 Engram-27B41k 步在面对完整训练的 MoE-27B50k 步时依然极具竞争力。它在 LongPPL 指标上与基准持平并在 RULER 测试中实现超越这充分证明了 Engram 架构的内在优越性。最后下图 4 是对表示对齐与收敛速度的分析。(a) 基于 LogitLens 的逐层 KL 散度分析。在模型浅层KL 散度持续保持在较低水平这表明 Engram 加速了预测的收敛。(b-c) 为基于 CKA 计算的相似度热力图。高相似度对角线显著的向上偏移表明Engram 的浅层在功能上等效于 MoE 模型的深层从而有效地增加了模型的深度。更多细节请参考原论文。阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询