大模型初创公司Kimi(月之暗面)近日发布新技术论文《Attention Residuals: Rethinking depth-wise aggregation》,提出“注意力残差”方法,引入灵活的深度聚合机制以替代传统残差连接结构。该创新可显著提升模型处理长序列数据的表达精度与效率。特斯拉CEO埃隆·马斯克在社交媒体上公开点赞该研究,称其为“亮眼工作”,Kimi官方随后互动回应,引发全球AI技术社区热议。业内认为,该研究或将推动长文本大模型在架构层面的新一轮优化发展。
大模型初创公司Kimi(月之暗面)近日发布新技术论文《Attention Residuals: Rethinking depth-wise aggregation》,提出“注意力残差”方法,引入灵活的深度聚合机制以替代传统残差连接结构。该创新可显著提升模型处理长序列数据的表达精度与效率。特斯拉CEO埃隆·马斯克在社交媒体上公开点赞该研究,称其为“亮眼工作”,Kimi官方随后互动回应,引发全球AI技术社区热议。业内认为,该研究或将推动长文本大模型在架构层面的新一轮优化发展。