MiniMax报告揭示大模型词元退化缺陷并提出修复方案

稀宇科技（MiniMax）发布技术报告，详细剖析其M2系列模型无法准确输出特定人名（如“马嘉祺”）的深层原因。问题核心在于后训练阶段，低频词元因数据稀疏导致向量参数被高频词元“挤压”，出现概率偏移。排查发现，该现象影响广泛，约4.9%的词元出现性能衰退，其中日文词元退化比例高达29.7%，导致模型在日语对话中混入异语字符。此外，LaTeX公式标记等特定词汇也受影响。团队通过构造覆盖全词表的合成数据进行“复读”训练，为每个词元建立生成频率底线，修复后日语回答中异语字符混入比例从47%降至1%。报告指出，确保后训练数据对词表的全面覆盖是提升大模型可靠性的关键课题。

MiniMax报告揭示大模型词元退化缺陷并提出修复方案

发表回复