1月13日消息,今日凌晨,DeepSeek 开源全新架构模块「Engram」,并同步发布技术论文,署名作者中再次出现梁文锋。据悉,Engram 模块通过引入可扩展的查找式记忆结构,为大模型提供了区别于传统 Transformer 与 MoE 的全新稀疏性维度。
DeepSeek 在论文中指出,当前主流大模型在处理两类任务时存在结构性低效:一类是依赖固定知识的「查表式」记忆,另一类是复杂推理与组合计算。传统 Transformer(无论 Dense 或 MoE)均需通过多层注意力与 MLP 重建这些静态模式,导致计算资源被大量消耗在「重复构造已知模式」上。
Engram 的核心机制是基于现代化哈希 N-Gram 嵌入的 O(1) 查找式记忆。模块会对输入 Token 序列进行 N-Gram 切片,并通过多头哈希映射到一个规模可扩展的静态记忆表中,实现常数时间的检索。
论文强调,这种查找与模型规模无关,即便记忆表扩展至百亿级参数,检索成本仍保持稳定。与 MoE 的条件计算不同,Engram 提供的是「条件记忆」。模块会根据当前上下文隐向量决定是否启用查找结果,并通过门控机制与主干网络融合。
论文显示,Engram 通常被放置在模型早期层,用于承担「模式重建」职责,从而释放后续层的计算深度用于复杂推理。DeepSeek 在 27B 参数规模的实验中,将部分 MoE 专家参数重新分配给 Engram 记忆表,在等参数、等算力条件下,模型在知识、推理、代码与数学任务上均取得显著提升。
在 X 平台上,相关技术讨论认为 Engram 的机制有效减少了模型早期层对静态模式的重建需求,使模型在推理部分表现得更「深」。部分开发者指出,这种架构让大规模静态记忆得以脱离 GPU 存储限制,通过确定性寻址实现主机内存预取,从而在推理阶段保持低开销。多位观察者推测,Engram 很可能成为 DeepSeek 下一代模型「V4」的核心技术基础。
- 1000个官方媒体网站发布广告,每天百万人次曝光,帮您客户覆盖全国,业绩翻倍!
- 多地省考放宽35岁年龄限制
- 16G内存条的价格涨幅超过3倍
- 观致汽车厂再流拍 6万人围观1人报名
- 新能源汽车废旧动力电池新规来了
- 银行保管箱“一箱难求”
- BBA在华销量跌回七八年前
- 重夺汽车第一城 西部大佬杀回来了
- 有人在宜家5折捡漏原价2800元的床
- 春运坐火车 不用自己拿行李了
- 跑5公里和走5公里哪个更健康
- 福耀科技大学大一学生已被企业抢光
- 小米SU7二手均价跌至20.7万,Ultra版半年跌去15万
- 装修完才发现,家里这9处真“别扭”,给大家提个醒,别走我老路
- 重磅发布|2025PChouse Award私宅设计大奖年度私宅设计影响力榜
- 标志性变化!麦肯锡改革校招,要求应届生用AI配合完成案例测试
- 2026届春运选手们注意啦!这些信息有必要提前知晓!这些服务也请提前准备!
- 市教育局正式回复:初中上课时间不早于8:00,不得要求学生提前到校参加统一教学活动!
- 【大讲堂】南方教研大讲堂第172场(高中化学专场)举行
- 徐汇、杨浦初三一模数学卷+答案参考