IBM 开源 Granite 4.0 1B Speech 多模态语音模型,性能跃升且更轻量

IBM 宣布推出并开源 Granite 4.0 1B Speech 语音语言模型,该模型面向边缘计算与企业级部署,支持多语种自动语音识别(ASR)及双向语音翻译(AST)。相比前代版本,新模型参数量减半,但性能显著提升,新增日语 ASR 支持与关键词偏置功能,并提升英文转录准确率。Granite 4.0 1B Speech 采用两阶段架构,先将音频转文本,再经 Granite 语言模型推理,可灵活配置应用流程,支持英语、法语、德语、西班牙语、葡萄牙语、日语及中英互译。在 OpenASR 测试中,模型以 5.52 的平均字错率位居榜首。IBM 依据 Apache 2.0 协议开源该模型,开发者可通过 Transformers 或 vLLM 框架部署,为资源受限设备提供高效语音 AI 能力。

上一篇:

下一篇:

发表回复

登录后才能评论