3月16日,Moonshot AI 发布技术报告《Attention Residuals》,由其大模型 Kimi 团队提出的新型残差连接架构在相同算力下实现约25%的效率提升。该研究对自2015年沿用至今的残差连接机制进行了重构,将注意力机制应用于网络深度维度,使模型能够主动选择性地整合层间信息。新版方案 Block AttnRes 在保持性能的同时将推理延迟控制在2%以内。在 GPQA-Diamond、数学和代码生成任务上分别提升7.5%、3.6%和3.1%。OpenAI 技术专家 Jerry Tworek 称该成果或标志“深度学习2.0”来临,Andrej Karpathy 亦评价其扩展了对注意力机制的理解。该研究在硅谷圈引起广泛讨论,被认为可能重塑大模型底层设计思路。