微软开源15B多模态推理模型
创始人
2026-03-06 06:52:12

AIPress.com.cn报道

3月5日消息,Microsoft 发布并开源一款15B参数的多模态推理模型——Phi-4-reasoning-vision-15B,主打硬件效率与视觉理解能力,可处理科学图表、界面截图等复杂视觉内容。

该模型基于两项既有算法构建:视觉编码算法SigLIP-2与此前已开源的Phi-4 Reasoning推理模型。SigLIP-2用于将图像压缩为神经网络可处理的数值表示,Phi-4 Reasoning则负责文本与逻辑推理能力。微软采用“中融合(mid-fusion)”架构将二者结合,即仅在部分网络层支持多模态处理,而非在所有层级引入视觉能力,从而在一定输出质量折衷下显著降低算力消耗。

微软表示,用户还可通过提示词启用或关闭推理功能,以进一步降低基础设施占用。这种可切换设计使模型在推理强度与资源效率之间实现动态平衡。

在训练方面,Phi-4-reasoning-vision-15B主要使用开源数据,包括图像及对应文本描述。训练前,微软对数据进行多阶段筛选:保留无需修改的高质量数据集;对图像质量较高但文本标注不准确的数据重新生成说明文本,所用模型包括 GPT-4o 与 o4-mini;同时加入内部构建数据及部分定向收购的高质量数据。训练语料中还包含模型应避免的行为示例,用于降低潜在有害输出风险。

在基准测试中,微软将该模型与同规模推理模型进行比较。在包含多模态数学问题的MathVista_Mini测试中,Phi-4-reasoning-vision-15B成绩较 Gemma 3 12B IT 高出17%,并在六项以上评测中取得更高分数。微软研究人员称,该模型在数学与科学推理方面表现突出,在计算资源消耗显著低于部分大型模型的前提下实现竞争性性能。

应用层面,该模型可用于构建具备界面理解能力的AI代理系统。通过分析截图,模型能够推断按钮、菜单、文本框等界面元素的功能与位置,适用于桌面、网页及移动端环境的自动化交互场景。

此外,模型还可解析复杂视觉资产,例如科学图表或天文图像。在演示中,用户上传土星照片并询问其倾斜原因,模型能够结合季节与观测角度进行解释。

目前,微软已在Hugging Face、GitHub及Azure平台开放该模型代码与访问渠道。(AI普瑞斯编译)

相关内容

热门资讯

最新或2023(历届)千年包公... 《千年包公》由中共安徽省纪律检查委员会、中央电视台和安徽广播电视台联合摄制。下面是太阳教育网为大家搜...
最新或2023(历届)审计局副...   党的群众路线教育实践活动开展以来,在深入扎实学习、广泛听取意见的基础上,通过群众提、上级点、互相...
“三严三实”专题民主生活上的发...  按照中央、省委、省政府和局党组统一部署,自开展党的群众路线教育实践活动以来,在局教育实践领导小组《...
乡镇领导班子三严三实专题民主生... 习近平总书记参加十二届全国人大二次会议安徽代表团审议时提出“三严三实”他指出,各级领导干部都要既严以...
纪委书记党委委员三严三实专题民...  三严三实专题教育活动开展以来,本人按照县、镇活动总体安排,认真学习,广泛征求群众意见,对照习近平总...