针对开发者社区发现的 MiniMax M2 系列模型输出特定人名“马嘉祺”异常现象,MiniMax 官方已完成排查并发布技术报告。核心原因为模型后训练阶段导致的低频词元退化。报告显示,“嘉祺”对应的词元因在后训练数据中出现频率极低(不足5条),其向量空间参数被高频词元挤压偏移,导致模型无法正确输出。该问题影响约4.9%的词元,其中日语内容退化率达29.7%,并解释了模型日语对话中偶尔混入其他语言字符的原因。此外,大量互联网垃圾词也因训练数据缺失而被“遗忘”。MiniMax 已提出三项修复策略:通过合成数据确保所有词元最低练习频率、在监督微调数据中混入预训练语料、以及裁剪冗余词元并加强监控。该案例揭示了大模型分词器设计与实际使用场景间的潜在脱节。