微软发布 MAI-Transcribe-1:25 种语言平均词错率降至 3.9%,精度创全球新高

微软近日推出语音转文字模型 MAI-Transcribe-1,在 25 种语言的平均词错误率仅为 3.9%,被评为目前最精准的多语种转写模型。该模型在 FLEURS 基准测试中表现突出,尤其在英语、法语、德语等 11 种核心语言上精度排名第一,并在测试中超越 OpenAI Whisper-large-v3 与 Google Gemini 3.1 Flash。MAI-Transcribe-1 主要应用于会议记录、媒体内容等场景,批量转写速度较 Azure Fast 产品提升 2.5 倍。当前版本暂不支持实时转写与说话人分离功能,后续将逐步完善。该模型已在 Microsoft Foundry 平台向企业和开发者开放,定价每小时 0.36 美元。微软同时将 MAI-Image-2 与 MAI-Voice-1 引入该平台,进一步完善语音识别、合成与图像生成的多模态 AI 生态。

上一篇:

下一篇:

发表回复

登录后才能评论