M4 MacBook Pro 本地运行 Qwen 3.5-9B 达 40 tokens/s，24GB 内存实现离线 AI 工作流

开发者在24GB内存的M4 MacBook Pro上测试本地大模型部署，优化后的Qwen 3.5-9B量化版本实现约40 tokens/s生成速度，可支持离线办公与私密开发。对比测试显示，20B级模型虽可勉强运行但资源占用过高，4B模型则在复杂任务中表现不足，9B规模在性能与资源间取得平衡。该方案支持128K上下文，并通过调节Temperature与Top_p参数及启用思维链推理提升编程与逻辑能力，结合LM Studio等工具构建本地AI助手体系。

M4 MacBook Pro 本地运行 Qwen 3.5-9B 达 40 tokens/s，24GB 内存实现离线 AI 工作流

发表回复