AMD发布vLLM-ATOM插件优化国产大模型在Instinct GPU上的推理性能

AMD近日发布面向大语言模型部署的vLLM-ATOM插件，旨在提升国产模型在其GPU平台上的推理效率。该插件基于开源推理框架vLLM开发，可在不改变现有API和工作流的情况下直接部署，通过自动优化请求调度与GPU内核，在高并发场景下提升性能并提高显存利用率。vLLM-ATOM重点适配AMD Instinct MI350和MI400系列GPU，支持DeepSeek-R1、Kimi-K2、Qwen3、GLM等主流模型，并兼容稠密模型、混合专家模型（MoE）及视觉语言模型等多种架构。AMD表示，该插件可降低企业AI服务迁移与部署成本，推动AMD算力在大模型推理场景中的应用。

AMD发布vLLM-ATOM插件 优化国产大模型在Instinct GPU上的推理性能

发表回复

AMD发布vLLM-ATOM插件优化国产大模型在Instinct GPU上的推理性能