MiniMax报告揭示大模型词元退化缺陷并提出修复方案

稀宇科技(MiniMax)发布技术报告,详细剖析其M2系列模型无法准确输出特定人名(如“马嘉祺”)的深层原因。问题核心在于后训练阶段,低频词元因数据稀疏导致向量参数被高频词元“挤压”,出现概率偏移。排查发现,该现象影响广泛,约4.9%的词元出现性能衰退,其中日文词元退化比例高达29.7%,导致模型在日语对话中混入异语字符。此外,LaTeX公式标记等特定词汇也受影响。团队通过构造覆盖全词表的合成数据进行“复读”训练,为每个词元建立生成频率底线,修复后日语回答中异语字符混入比例从47%降至1%。报告指出,确保后训练数据对词表的全面覆盖是提升大模型可靠性的关键课题。

上一篇:

下一篇:

发表回复

登录后才能评论