2026/3/29 15:02:46
网站建设
项目流程
浙江城乡建设网站,黄冈app下载推广平台官网,宝安各大网站制作比较好的,嘉兴网站排名优化公司一向低调的 DeepSeek#xff0c;在凌晨悄然更新了 GitHub。没有发布会#xff0c;没有营销话术#xff0c;只有一篇论文和一个新模块的源码——Engram。更耐人寻味的是#xff0c;这篇论文的作者列表中#xff0c;再次出现了 梁文锋 的名字。论文标题很“工程味”#xf…一向低调的DeepSeek在凌晨悄然更新了 GitHub。没有发布会没有营销话术只有一篇论文和一个新模块的源码——Engram。更耐人寻味的是这篇论文的作者列表中再次出现了梁文锋的名字。论文标题很“工程味”Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models一句话概括这是一次试图把「记忆」从神经网络里拆出来的架构实验。而不少开发者已经开始猜测——这可能不是一篇“孤立论文”而是 DeepSeek 下一代模型V4的重要技术预告。一、一个长期被忽视的问题大模型到底在“算什么”当前主流的大模型无论是 Dense Transformer还是 MoE本质上都在做同一件事用大量连续矩阵计算去完成两类完全不同的工作。第一类是事实性记忆。 例如法国的首都是哪某个 API 的固定用法常见代码模板、语法结构这些问题本质上更接近查表。第二类是组合推理与计算。 例如多步逻辑推导复杂上下文理解抽象概念的重新组合这才是真正需要神经网络“算”的地方。问题在于我们一直在用同一套高成本的神经计算同时承担这两种职责。MoE 解决了什么 它解决的是参数规模 ≠ 计算量必须线性增长但 DeepSeek 的观察更进一步即便在 MoE 中用“专家网络”去记忆固定模式仍然是一种浪费。于是 Engram 出现了。二、Engram 在做什么一句话该查的别算“Engram” 是神经科学中的术语意为记忆痕迹。在这篇论文里它被实现为一个可扩展、可学习、可条件触发的记忆模块。核心思想并不复杂但非常“反直觉”把一部分模型能力从连续神经计算转移到确定性查找。具体来说Engram 做了三件事第一它不再试图“理解”所有 token。 而是将输入切分成N-gram 片段连续 token 组合。第二这些 N-gram 会通过哈希映射直接定位到一个巨大的 Lookup Table。第三查找是确定性的、O(1) 复杂度。 不管这个表里存了多少“记忆”一次检索的成本几乎不变。这意味着什么模型可以用极低的算力调用海量“已知模式”。三、一条新的稀疏性轴它和 MoE 并不冲突论文里有一句很关键的话Engram introducesa new axis of sparsity.这句话的分量不小。MoE 的稀疏性是条件计算只激活少量专家网络Engram 的稀疏性是条件查找只命中极少量记忆条目两者解决的是不同问题。可以这样理解模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上Engram 被放在较早的层级用于模式重构与事实补全 而深层网络终于可以把算力集中在真正困难的推理任务上。四、为什么工程师会对它这么兴奋在 Reddit、X 等社区里技术讨论的焦点并不在“效果提升了多少”而在几个更底层的点上第一确定性寻址。 哈希 查表意味着逻辑清晰行为稳定可预测这对工程系统来说价值极高。第二潜在的硬件友好性。 有开发者指出Engram 的查找表理论上可以放在主机内存中而不是全部压在 GPU 上。这让“本地部署大模型”的想象空间突然变大了。第三它并不依赖新奇技巧。 N-gram、哈希、查表—— 这些都是 NLP 领域的“老东西”。但 DeepSeek 做的是把它们重新放回现代 LLM 架构的正确位置。五、V4 会用吗没人官宣但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。但社区的推断并非空穴来风这是一个可独立插拔的模块它解决的是长期存在的结构性问题论文中大量讨论的是规模化行为而非小模型技巧更重要的是这种设计理念和 DeepSeek 过去的路线高度一致不盲目堆参数而是不断重构“算力应该花在哪里”。如果说 V2 / V3 的关键词是MoE 扩展效率 那么 Engram 暗示的是下一阶段的主题记忆与推理的结构性分离。六、人工智能测试开发训练营霍格沃兹测试开发学社做课程时我们很少从“模型参数”讲起。原因很简单大多数工程师真正缺的不是论文阅读能力而是把 AI 变成系统能力的路径。无论是 Agent、RAG还是今天看到的 Engram本质上都在指向同一个方向AI 已经进入“工程复杂度主导”的阶段。这也是我们课程一直强调的重点AI 系统如何拆模块推理链路如何可控复杂能力如何工程化落地不是追某一个模型版本而是建立长期可迁移的能力结构。写在最后Engram 并不是在“否定神经网络”。它做的只是一个极其工程化、但极其重要的判断不是所有智能都值得用矩阵乘法来实现。当模型规模继续扩大 也许真正决定上限的不再是参数数量 而是——你是否知道哪些东西该算哪些东西只需要记住。这条路一旦走通影响的不会只是 DeepSeek。