AMD发布vLLM-ATOM插件，优化Instinct GPU大模型推理性能

AMD近日发布vLLM-ATOM插件，面向Instinct GPU优化大模型推理性能。该插件基于开源推理框架vLLM设计，在不改变现有API、命令及现有工作流的情况下即可完成性能接管，实现“无感迁移”。架构采用三层设计：vLLM负责请求调度与接口兼容，ATOM插件进行模型实现与内核优化，底层AITER直接连接GPU并提供Flash Attention、量化GEMM及融合MoE等加速能力。该方案适配Instinct MI350、MI355X、MI400等计算卡，已支持Qwen、GLM、DeepSeek等多种模型，以及MoE、稠密模型和视觉语言模型推理部署。

AMD发布vLLM-ATOM插件，优化Instinct GPU大模型推理性能

发表回复