微软宣布正式开源多模态推理模型 Phi-4-reasoning-vision-15B。该模型拥有约150亿参数,在保持轻量化的同时兼顾高性能与低成本,面向资源受限环境的复杂视觉推理任务。Phi-4-reasoning-vision 系列以数据精细化为特点,仅采用约2000亿多模态 token 进行训练,重点优化数据清洗与合成策略,并在科学推理、屏幕定位等任务中表现突出。模型采用“混合推理路径”设计,能根据任务复杂度自动切换直接作答或结构化思维链(CoT)推理模式。引入 SigLIP-2 动态分辨率编码器后,其在高分辨率截图中的细节感知能力显著提升,适用于计算机操作助手等应用。目前该模型已在多开源平台上线,微软称此举旨在推动多模态智能技术的轻量化发展与实际应用落地。