Ollama 集成苹果 MLX 框架，本地模型推理性能最高提升两倍

3 月 31 日，本地大模型运行方案 Ollama 发布更新，正式接入苹果自研机器学习框架 MLX，为搭载 Apple 芯片的 Mac 设备带来显著性能提升。官方数据显示，集成 MLX 后，预填阶段推理速度提升约 1.6 倍，生成阶段提升约两倍；配备 M5 芯片的机型因新增 GPU Neural Accelerator，推理响应接近实时。本次版本亦优化了统一内存调度策略，长时间会话更流畅，建议使用 32GB 及以上内存的设备以获得最佳表现。预览版率先对阿里 Qwen 3.5 模型提供支持，后续将覆盖更多主流模型。此次更新标志着苹果生态在本地 AI 推理领域的进一步整合。

Ollama 集成苹果 MLX 框架，本地模型推理性能最高提升两倍

发表回复