1月13日消息,今日凌晨,DeepSeek 开源全新架构模块「Engram」,并同步发布技术论文,署名作者中再次出现梁文锋。据悉,Engram 模块通过引入可扩展的查找式记忆结构,为大模型提供了区别于传统 Transformer 与 MoE 的全新稀疏性维度。
DeepSeek 在论文中指出,当前主流大模型在处理两类任务时存在结构性低效:一类是依赖固定知识的「查表式」记忆,另一类是复杂推理与组合计算。传统 Transformer(无论 Dense 或 MoE)均需通过多层注意力与 MLP 重建这些静态模式,导致计算资源被大量消耗在「重复构造已知模式」上。
Engram 的核心机制是基于现代化哈希 N-Gram 嵌入的 O(1) 查找式记忆。模块会对输入 Token 序列进行 N-Gram 切片,并通过多头哈希映射到一个规模可扩展的静态记忆表中,实现常数时间的检索。
论文强调,这种查找与模型规模无关,即便记忆表扩展至百亿级参数,检索成本仍保持稳定。与 MoE 的条件计算不同,Engram 提供的是「条件记忆」。模块会根据当前上下文隐向量决定是否启用查找结果,并通过门控机制与主干网络融合。
论文显示,Engram 通常被放置在模型早期层,用于承担「模式重建」职责,从而释放后续层的计算深度用于复杂推理。DeepSeek 在 27B 参数规模的实验中,将部分 MoE 专家参数重新分配给 Engram 记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升。
在 X 平台上,相关技术讨论认为 Engram 的机制有效减少了模型早期层对静态模式的重建需求,使模型在推理部分表现得更「深」。部分开发者指出,这种架构让大规模静态记忆得以脱离 GPU 存储限制,通过确定性寻址实现主机内存预取,从而在推理阶段保持低开销。多位观察者推测,Engram 很可能成为 DeepSeek 下一代模型「V4」的核心技术基础。
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 男孩用筷子做的“无人机”能起飞
- 建议基础教育学制缩短为532
- 曝阿里高层正出面挽留林俊旸
- 《飞驰人生3》2026年票房全球第一
- 建议建立母亲养老金制度
- 这种“微信转账”不要点不要收
- 代表建议生育支持体系应覆盖0到18岁
- 委员建议个税起征点提高至8000到1万
- 《镖人》拐弯箭名场面火了 运动员实测
- BBA销量跌回十年前 年轻人后悔了
- 1千元CCD相机2年涨至4千
- 建议推广农村不超过2万彩礼
- 像洗澡一样站着就把羽绒服洗了
- 建议70岁以上农民养老金提至500元
- 建议高考英语降为100分
- 超二十家车企开打“金融战”
- 代表建议家暴情形不适用离婚冷静期
- 韩国股市暴跌触发熔断
- 中国工厂为何成海外车企高管进修地