微软重磅发布Phi-4推理模型,小型AI挑战大模型霸主
创始人
2025-05-01 15:31:27

IT之家 5 月 1 日消息,微软昨日(4 月 30 日)发布 Phi-4-reasoning 系列推理模型,通过监督微调 Phi-4,并利用 o3-mini 生成的高质量“可教导”提示数据集训练,专为复杂推理任务设计。

IT之家援引博文介绍,微软本次共推出 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 三款模型,官方称该系列模型不仅延续了小型模型的高效特性,还在推理能力上实现重大突破。

该系列模型通过推理时间扩展(inference-time scaling)技术,擅长处理需要多步骤分解和内部反思的复杂任务,尤其在数学推理和代理型应用中表现突出,具备媲美大型前沿模型的潜力。

Phi-4-reasoning 是一款拥有 140 亿参数的开源推理模型,通过监督微调(Supervised Fine-Tuning,SFT)Phi-4,结合 OpenAI o3-mini 的高质量推理演示数据,并充分利用额外计算资源,生成详细的推理链条。

Phi-4-reasoning-plus 增强版通过强化学习(Reinforcement Learning,RL)进一步提升性能,tokens 用量比标准版多 1.5 倍,支持更高精度。

两款模型在数学推理和博士级科学问题测试中,均超越 OpenAI o1-mini 和 DeepSeek-R1-Distill-Llama-70B,甚至在 AIME 2025(美国数学奥林匹克资格赛)中击败 6710 亿参数的 DeepSeek-R1满血模型。

Phi-4-mini-reasoning 专为计算资源有限的环境设计,是一款基于 Transformer 的紧凑型语言模型,优化用于数学推理。

该模型通过 DeepSeek-R1 生成的合成数据微调,能在低延迟场景下提供高质量的逐步问题解决方案。这款模型覆盖从中学到博士级的百万级多样化数学问题,非常适合教育应用、嵌入式辅导和边缘设备部署。

在多项数学基准测试中,其 3.8 亿参数的表现超越 OpenThinker-7B 和 Llama-3.2-3B-instruct 等更大模型,甚至在部分测试中接近 OpenAI o1-mini 的水平。

相关内容

热门资讯

北华大学排名 最新或2023(... 北华大学是吉林省省属规模最大的重点综合性大学,1999年经教育部批准,由原吉林师范学院、吉林医学院、...
广西科技大学排名 最新或202...  最新或2023(历届)3月19日,国家教育部发展规划司公示,广西科技大学(筹)经筹建去“筹”为广西...
山东大老虎是谁,山东反腐打了几...   最新或2023(历届)5月,中央第四巡视组离开山东后,反馈了如下情况:“一把手”违纪违法案件呈上...
最新或2023(历届)我学会了... 在我九岁生日的那天,为了这个特别的日子,姥姥承诺给我买个玩具当礼物,一大早带我去商场,到了玩具专柜,...
最新或2023(历届)快乐的元... 元霄节那天,吃完晚饭,我和爸爸、妈妈、还有二姑妈一家来到信达广场。那里人山人海,彩灯四射,火树银花,...