该标识符与已知的现有模子“V32”(即 DeepSeek-V3.2)被并列或区别提及。凭据代码上下文明白,“MODEL1”很或许代外一个差别于现有架构的新模子。
开拓者明白以为,“MODEL1”与“V32”正在枢纽技艺上存正在区别,重要显露正在键值(KV)缓存的构造、疏落性治理式样以及对 FP8 数据方式的解码声援等方面。这些区别评释新架构或许正在内存优化和估量效劳进步行了针对性安排。
此前,DeepSeek 讨论团队还一连颁发了两篇技艺论文,差别先容了名为“优化残差连绵(mHC)”的新磨练本领,以及一种受生物学开导的“AI 影象模块(Engram)”。这一举止不禁惹起用户料到,DeepSeek 正正在开拓中的新模子有或许会整合这些最新的讨论成绩。敬请等候。