AMD近日发布面向大语言模型部署的vLLM-ATOM插件,旨在提升国产模型在其GPU平台上的推理效率。该插件基于开源推理框架vLLM开发,可在不改变现有API和工作流的情况下直接部署,通过自动优化请求调度与GPU内核,在高并发场景下提升性能并提高显存利用率。vLLM-ATOM重点适配AMD Instinct MI350和MI400系列GPU,支持DeepSeek-R1、Kimi-K2、Qwen3、GLM等主流模型,并兼容稠密模型、混合专家模型(MoE)及视觉语言模型等多种架构。AMD表示,该插件可降低企业AI服务迁移与部署成本,推动AMD算力在大模型推理场景中的应用。