AMD近日发布vLLM-ATOM插件,面向Instinct GPU优化大模型推理性能。该插件基于开源推理框架vLLM设计,在不改变现有API、命令及现有工作流的情况下即可完成性能接管,实现“无感迁移”。架构采用三层设计:vLLM负责请求调度与接口兼容,ATOM插件进行模型实现与内核优化,底层AITER直接连接GPU并提供Flash Attention、量化GEMM及融合MoE等加速能力。该方案适配Instinct MI350、MI355X、MI400等计算卡,已支持Qwen、GLM、DeepSeek等多种模型,以及MoE、稠密模型和视觉语言模型推理部署。