Ollama 集成苹果 MLX 框架,本地模型推理性能最高提升两倍

3 月 31 日,本地大模型运行方案 Ollama 发布更新,正式接入苹果自研机器学习框架 MLX,为搭载 Apple 芯片的 Mac 设备带来显著性能提升。官方数据显示,集成 MLX 后,预填阶段推理速度提升约 1.6 倍,生成阶段提升约两倍;配备 M5 芯片的机型因新增 GPU Neural Accelerator,推理响应接近实时。本次版本亦优化了统一内存调度策略,长时间会话更流畅,建议使用 32GB 及以上内存的设备以获得最佳表现。预览版率先对阿里 Qwen 3.5 模型提供支持,后续将覆盖更多主流模型。此次更新标志着苹果生态在本地 AI 推理领域的进一步整合。

上一篇:

下一篇:

发表回复

登录后才能评论