本报讯 5月29日,深度求索(DeepSeek)宣布完成旗下核心模型DeepSeek-R1的小版本升级,最新版本为DeepSeek-R1-0528(以下简称“R1升级版”)。用户可通过官方网站、APP或小程序进入对话界面,开启“深度思考”功能体验新版本,同时API接口已同步更新,调用方式保持不变。
据DeepSeek开发团队介绍,R1升级版模型基于2024年12月发布的DeepSeek V3Base模型,通过加大后训练阶段的算力投入,重点强化了模型的思维深度与推理能力。升级后的模型在数学、编程、通用逻辑等关键领域的基准测评中表现亮眼,整体性能已接近o3和Gemini-2.5-Pro,成为当前国内推理能力领先的AI模型之一。
在复杂推理任务中,R1升级版的进步尤为显著。以数学领域权威测试集AIME 2025为例,旧版模型准确率为70%,新版提升至87.5%。这一提升源于模型思维链的深度优化:旧版平均每题消耗12K tokens,新版则增至23K tokens,表明其在解题过程中进行了更详尽的逻辑推导和多步验证,显著减少了跳跃性思维导致的错误。
此外,DeepSeek开发团队通过蒸馏R1升级版的思维链后训练Qwen3-8B Base,进一步训练出轻量级模型DeepSeek-R1-0528-Qwen3-8B。该模型在AIME 2024测试中表现优异,准确率仅次于原版R1模型,超越同参数规模的Qwen3-8B模型10%,并与百亿参数级的Qwen3-235B模型相当。这一成果为学术界的推理模型研究和工业界的小模型开发提供了重要参考,证明了通过思维链蒸馏提升小模型性能的可行性。
除推理能力外,R1升级版在幻觉控制和创意写作领域也实现了关键突破。针对AI模型常见的“幻觉”问题,新版模型在改写润色、总结摘要、阅读理解等场景中,幻觉率较旧版降低45%~50%,输出内容的准确性和可靠性大幅提升,尤其适合对事实严谨性要求高的办公、教育等场景。R1升级版对议论文、小说、散文等文体进行了专项优化,可生成篇幅更长、结构更完整的长篇作品。例如,在模拟创作任务中,新版模型输出的小说段落平均字数较旧版增加30%,且情节连贯性、人物刻画细腻度更贴近人类写作偏好,展现出更强的内容生成能力。
R1升级版标志着国产大模型在推理能力上的快速进步。其思维链蒸馏技术为小模型性能提升提供了新路径,有望降低企业在特定场景下的AI部署成本。同时,模型在多领域的均衡表现,也为智能办公、教育辅导、代码开发等落地场景提供了更可靠的技术支撑。开发团队表示,未来将持续投入算力与数据优化模型能力,推动国产大模型在通用智能领域的探索。 (潇栋)