DeepSeek发布梁文锋署名新论文

1月13日消息，今日凌晨，DeepSeek 开源全新架构模块「Engram」，并同步发布技术论文，署名作者中再次出现梁文锋。据悉，Engram 模块通过引入可扩展的查找式记忆结构，为大模型提供了区别于传统 Transformer 与 MoE 的全新稀疏性维度。

DeepSeek 在论文中指出，当前主流大模型在处理两类任务时存在结构性低效：一类是依赖固定知识的「查表式」记忆，另一类是复杂推理与组合计算。传统 Transformer（无论 Dense 或 MoE）均需通过多层注意力与 MLP 重建这些静态模式，导致计算资源被大量消耗在「重复构造已知模式」上。

Engram 的核心机制是基于现代化哈希 N-Gram 嵌入的 O(1) 查找式记忆。模块会对输入 Token 序列进行 N-Gram 切片，并通过多头哈希映射到一个规模可扩展的静态记忆表中，实现常数时间的检索。

论文强调，这种查找与模型规模无关，即便记忆表扩展至百亿级参数，检索成本仍保持稳定。与 MoE 的条件计算不同，Engram 提供的是「条件记忆」。模块会根据当前上下文隐向量决定是否启用查找结果，并通过门控机制与主干网络融合。

论文显示，Engram 通常被放置在模型早期层，用于承担「模式重建」职责，从而释放后续层的计算深度用于复杂推理。DeepSeek 在 27B 参数规模的实验中，将部分 MoE 专家参数重新分配给 Engram 记忆表，在等参数、等算力条件下，模型在知识、推理、代码与数学任务上均取得显著提升。

在 X 平台上，相关技术讨论认为 Engram 的机制有效减少了模型早期层对静态模式的重建需求，使模型在推理部分表现得更「深」。部分开发者指出，这种架构让大规模静态记忆得以脱离 GPU 存储限制，通过确定性寻址实现主机内存预取，从而在推理阶段保持低开销。多位观察者推测，Engram 很可能成为 DeepSeek 下一代模型「V4」的核心技术基础。