iPhone 17 Pro 首次成功本地运行 4000 亿参数大模型，生成速率 0.6 token/s

【科技快讯】3 月 23 日，苹果 iPhone 17 Pro 成功实现 4000 亿参数大语言模型在手机端的本地运行。据悉，该实验利用 Flash-MoE 开源项目，通过将数据从固态硬盘流式传输至 GPU，实现内存“扩容”，并结合混合专家模型（MoE）架构，仅调用部分参数完成推理，从而突破设备 12GB 内存的瓶颈。实测显示，生成速度约为 0.6 token/秒，即约每两秒输出一个单词，期间功耗与散热压力显著。尽管性能仍有限，但该成果展示了超大模型在移动端本地运行的可行性，为未来隐私保护与离线 AI 应用提供了新的技术方向。

iPhone 17 Pro 首次成功本地运行 4000 亿参数大模型，生成速率 0.6 token/s

发表回复