2026/5/16 11:22:15
网站建设
项目流程
网页设计与制作教程知识点总结,seo的重要性,做渠道的网站有哪些,备案个人网站 淘宝客DeepSeek与北大联合发布Engram架构#xff0c;将语言理解分为推理和知识两部分。通过2-Grams/3-Grams分词和Multi-Head Hash存储短语#xff0c;结合Context-aware Gating机制解决多义词问题。Engram将传统模型中用于组合固定短语的大量…DeepSeek与北大联合发布Engram架构将语言理解分为推理和知识两部分。通过2-Grams/3-Grams分词和Multi-Head Hash存储短语结合Context-aware Gating机制解决多义词问题。Engram将传统模型中用于组合固定短语的大量算力转移到逻辑推理上实现更高效的语言理解。其工程实现能力强可提前计算访问槽位将大表放于CPU内存降低了计算成本。Engram并非本质性技术突破而是以更低的成本实现同等效果为模型蒸馏提供了新思路。最近 DeepSeek 联合北京大学发布了全新架构 Engram不少自媒体都在传这是 DeepSeek 4.0 要来了的信号。事实真的如此吗这篇文献到底在讲什么核心灵感和底层逻辑是什么有哪些亮眼的创新点又能给我们带来什么启发今天就把这些问题一次性讲清楚。老规矩给大家分个阅读档位爱好者可以跳过选读部分就足以在饭桌上谈笑风生了工程师可以通读全文就可以超过身边大部分人了算法工程师和 AI 工程师通读过建议还是要认真读一遍论文全文核心分为 5 个部分Engram 的核心灵感语言理解不用从零开始Engram 的核心机制如何存储词典选读Engram 的核心机制解决多义词 噪声选读DeepSeek 的务实工程实现能力Engram 是未来么我眼中的 Engram一、Engram 的核心灵感语言理解不用从零开始我们先想一个问题平时是怎么理解一句话的比如“咖啡加牛奶做成了拿铁”我们的理解路径很直接先提取这句话里的关键信息“咖啡”“牛奶”“拿铁”再顺着逻辑理解整句话的含义这个过程对我们来说稀松平常但对大模型而言完全不是这么回事。大模型没有 “词” 的概念不会分词只会拆分成最小的 token 单位可以简单理解为拆字把这句话拆成一个个单独的 token“咖”“啡”“加”“牛”“奶”“做”“成”“了”“拿”“铁”再通过大量计算把这些 token 组合成有意义的词“咖啡”“牛奶”“拿铁”接着再耗费算力去理解什么是咖啡、什么是牛奶、什么是拿铁最后再通过复杂运算理清这些词之间的逻辑关系对比下来就能发现大模型比我们多做了两件极其耗费算力的事把零散 token 拼接成完整的词单独去理解每个词的基础含义所以这篇文章在引言里就抛出了一个核心逻辑语言理解其实包含两个任务 —— 推理和知识。推理需要大量计算但文本里的很多内容都属于 “知识”比如固定单词、常用短语这些内容根本不需要推理直接检索调用就够了。但传统 Transformer 架构的大模型压根没有检索能力。面对一段文本它只能靠海量计算把已经存在的知识重新 “拼凑” 出来。这就像你想查一个联系人的住址明明直接翻通讯录就行却非要从和他的聊天记录里一点点推理离谱但真实 —— 这就是当下大模型正在做的事。而 Engram 的底层逻辑其实非常简单语言里的很多内容本质就是 “字典项”比如固定短语、常见搭配。这些内容不需要模型花好几层网络去推断直接通过检索就能稳定识别。这样一来在算力不变的情况下就能把更多计算资源留给真正需要推理的环节。用一组简单的数字就能说清楚传统大模型1000 亿参数500 亿用来 “组合固定短语”500 亿用来 “逻辑推理”Engram 架构同样 1000 亿参数只需要 50 亿就能完成 “检索固定短语”剩下 950 亿全部投入 “逻辑推理”这就是 Engram 效果更强的核心原因 ——把有限的算力花在更有价值的地方。二、Engram 的核心机制如何存储词典选读Engram 存储短语的方式其实特别直接核心就分两步分词 存储。首先是分词环节。论文里用的是2-Grams 和 3-Grams的方式说人话就是提取连续的 2 个或 3 个 token 组合。举个例子“我 爱 吃 饭”对应 “爱” 这个位置提取 2-Grams 组合“我爱”对应 “吃” 这个位置提取 2-Grams 组合 “爱吃”、3-Grams 组合 “我爱吃”对应 “饭” 这个位置提取 2-Grams 组合 “吃饭”、3-Grams 组合 “爱吃饭”这么一处理这句话就拆分出了 5 个短语组合。然后是存储环节。通过上面的分词方式会产生海量短语组合有意义的、没意义的都有如果全部存起来存储成本难以承受。所以文章里用了一个巧妙的方法 ——Multi-Head Hash多头哈希。先简单回顾下哈希存储的原理用一个哈希函数把字符串转换成固定长度的数字再把这个数字作为索引存在对应的哈希桶里。但这种方式的问题就是哈希碰撞不同字符串算出相同哈希值。除非设计一个超大的存储空间否则根本没法避免而这显然不现实。那多头哈希是怎么解决这个问题的简单说就是用多套哈希函数给同一个短语生成多个索引。举个具体例子有两个短语“我爱吃饭”“我爱睡觉”设计 3 个不同的哈希函数Hash_1、Hash_2、Hash_3分别计算哈希值给每个哈希函数配一个单独的 Embedding 存储矩阵假设矩阵大小是 m*nm 是哈希桶数量n 是 Embedding 维度3 个哈希函数就对应 3 个矩阵M_1、M_2、M_3最后拼接 Embedding“我爱吃饭” 的最终向量就是 “我爱睡觉” 的最终向量就是也就是说哪怕 Hash_1 算出的哈希值相同但另外两个哈希函数的结果不一样最终拼接出的向量也完全不同。这样既解决了哈希碰撞问题又因为多头的存在让同一个短语拥有了更丰富的维度表达 —— 这个思路其实和传统 Transformer 的多头注意力机制有异曲同工之妙。三、Engram 的核心机制解决多义词 噪声选读词典存好了、能检索到了新的问题又来了多义词和无效噪声。先说多义词比如 “苹果”既可以指水果也可以指科技公司再说噪声从上面的分词逻辑能看出来会产生很多没意义的组合比如 “我爱吃饭” 里的 “爱吃”。DeepSeek 团队给出的解决方案特别接地气工程属性拉满 ——Context-aware Gating。具体操作逻辑如下把 Engram 模块嵌入到模型的注意力层中用当前层的隐藏状态hidden state判断检索到的 “记忆短语” 和当前上下文是否相关如果不相关就把这个短语的权重压到接近 0再把这份 “记忆向量” 通过残差连接加回到模型主干网络如果权重被压到 0就相当于对当前上下文没有任何影响最后再正常走自注意力Self-Attention和混合专家模型MoE等流程一句话总结这个机制的核心查到了不代表要用用不用得看当前上下文说了算。四、DeepSeek 的务实工程实现能力接下来就步入了 Deepseek 团队的最大舒适区工程实现因为Engram 的索引只依赖 token 序列是确定的所以可以提前算出接下来要访问哪些槽位可以 prefetch大表甚至可以放在 CPU 内存而不再依赖于昂贵的 GPU显存这点非常关键很多“记忆增强”的想法最后死在系统上而 Engram 明显是奔着工业落地去的。五、Engram 是未来么我眼中的 Engram其实平心而论Engram 的核心观点和出发点都很朴素 —— 把原本耗在 “知识检索” 上的算力转移到 “逻辑推理” 上本质就是避免无谓的算力消耗。但要说 Engram 是一次本质性的技术跨越还远远谈不上。因为它的核心优势靠堆参数、堆算力的头部大模型厂商完全可以通过提升硬件配置来达到同样的效果。而且受限于 N-Grams 的固有缺陷哪怕有Context-aware Gating多义词和无效短语的问题还是会对模型效果造成一定影响。所以从本质上看这篇文章延续了 DeepSeek 团队一贯的风格如何用更低的成本实现同等的效果。不过对我们来说这篇文章带来了一个更有价值的启发 ——模型蒸馏。我们过去总是希望用“小模型”来蒸馏出“大模型”的关键部分但是其实大模型里是分成了“知识”和“推理”两块如果我们能把知识先抽取出来再把知识作为 Prompt 输入最后再去蒸馏大模型是否能够获得更好的效果呢让我们拭目以待。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】