微软开源15B多模态推理模型
创始人
2026-03-06 06:52:12

AIPress.com.cn报道

3月5日消息,Microsoft 发布并开源一款15B参数的多模态推理模型——Phi-4-reasoning-vision-15B,主打硬件效率与视觉理解能力,可处理科学图表、界面截图等复杂视觉内容。

该模型基于两项既有算法构建:视觉编码算法SigLIP-2与此前已开源的Phi-4 Reasoning推理模型。SigLIP-2用于将图像压缩为神经网络可处理的数值表示,Phi-4 Reasoning则负责文本与逻辑推理能力。微软采用“中融合(mid-fusion)”架构将二者结合,即仅在部分网络层支持多模态处理,而非在所有层级引入视觉能力,从而在一定输出质量折衷下显著降低算力消耗。

微软表示,用户还可通过提示词启用或关闭推理功能,以进一步降低基础设施占用。这种可切换设计使模型在推理强度与资源效率之间实现动态平衡。

在训练方面,Phi-4-reasoning-vision-15B主要使用开源数据,包括图像及对应文本描述。训练前,微软对数据进行多阶段筛选:保留无需修改的高质量数据集;对图像质量较高但文本标注不准确的数据重新生成说明文本,所用模型包括 GPT-4o 与 o4-mini;同时加入内部构建数据及部分定向收购的高质量数据。训练语料中还包含模型应避免的行为示例,用于降低潜在有害输出风险。

在基准测试中,微软将该模型与同规模推理模型进行比较。在包含多模态数学问题的MathVista_Mini测试中,Phi-4-reasoning-vision-15B成绩较 Gemma 3 12B IT 高出17%,并在六项以上评测中取得更高分数。微软研究人员称,该模型在数学与科学推理方面表现突出,在计算资源消耗显著低于部分大型模型的前提下实现竞争性性能。

应用层面,该模型可用于构建具备界面理解能力的AI代理系统。通过分析截图,模型能够推断按钮、菜单、文本框等界面元素的功能与位置,适用于桌面、网页及移动端环境的自动化交互场景。

此外,模型还可解析复杂视觉资产,例如科学图表或天文图像。在演示中,用户上传土星照片并询问其倾斜原因,模型能够结合季节与观测角度进行解释。

目前,微软已在Hugging Face、GitHub及Azure平台开放该模型代码与访问渠道。(AI普瑞斯编译)

相关内容

热门资讯

公园“上新” 解锁有福之州的N... 7日上午,记者来到花海公园。鼓山大桥下的花田旁,6张色彩鲜艳的崭新“躺平椅”成为市民打卡的热点。“躺...
暴雨橙色预警!应急响应升级!这... 中央气象台预报,今起三天(7-9日),西南地区东部、江南、华南等地有强降雨过程,部分地区累计降雨量较...
警方解析高考前后五大典型诈骗话... 高考前后,各类涉考诈骗进入高发期。诈骗分子常冒充教育局、高校招生办等机构工作人员,利用考生及家长的焦...
福州“智”造狙击致命脑胶质瘤 【公司名片】福州拓新天成生物科技有限公司于2017年4月在福州高新区成立,由世界肿瘤免疫学界专家、肿...
福州电力贴心护航高考 6月7日高考首日,连江县黄如论中学考点外,不少家长顶着酷暑等候考生。受持续高温影响,手机、随身小风扇...