微软开源 Phi-4-reasoning-vision-15B：轻量多模态推理模型聚焦高效与低成本

微软宣布正式开源多模态推理模型 Phi-4-reasoning-vision-15B。该模型拥有约150亿参数，在保持轻量化的同时兼顾高性能与低成本，面向资源受限环境的复杂视觉推理任务。Phi-4-reasoning-vision 系列以数据精细化为特点，仅采用约2000亿多模态 token 进行训练，重点优化数据清洗与合成策略，并在科学推理、屏幕定位等任务中表现突出。模型采用“混合推理路径”设计，能根据任务复杂度自动切换直接作答或结构化思维链（CoT）推理模式。引入 SigLIP-2 动态分辨率编码器后，其在高分辨率截图中的细节感知能力显著提升，适用于计算机操作助手等应用。目前该模型已在多开源平台上线，微软称此举旨在推动多模态智能技术的轻量化发展与实际应用落地。

微软开源 Phi-4-reasoning-vision-15B：轻量多模态推理模型聚焦高效与低成本

发表回复