12月1日晚间,DeepSeek一口气发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型。
《科创板日报》记者注意到,此次新发布的DeepSeek-V3.2系列模型,主要强在推理能力的提升。
在Benchmark推理测试中,V3.2与GPT5、Claude4.5在不同领域各有高低,只有Gemini 3 Pro对比前三者均有较明显优势。
而与月之暗面新发布的Kimi-K2-Thinking相比,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
对于这次DeepSeek新模型的发布,IDC中国研究总监卢言霞向《科创板日报》记者认为,其将推理能力融入到既有大模型,使得大语言模型、多模态大模型本身就具备推理能力,这也是未来的发展方向,会让模型推理更快,以解决之前纯推理模型速度慢的问题。
快思慢想研究院院长、特邀评论员田丰则向《科创板日报》记者称,DeepSeek新模型降低了推理成本,通过稀疏注意力机制,使128K长上下文推理成本降低数倍,内存占用减少70%。
与此同时,DeepSeek作为开源模型在某些领域实现对闭源模型的反超,通过RL强化学习投入超过预训练投入,以规模化投入强化学习创新路径,直接推动模型在数学推理(IMO金牌)、编程(ICPC世界第二)等硬核任务中达到GPT-5水平。
此外,DeepSeek V3.2模型从“工具调用”迈向“思考型智能体”,实现“文武兼优”。V3.2版本引入“思考保留”模式,支持将工具调用嵌入完整的推理链条中,从而有效规避传统智能体常见的“记忆断裂”问题。比如,面对多步骤复杂任务时,模型能够基于历史工具执行结果持续优化决策,而无需重启推理流程。
技术报告显示,在智能体评测中,V3.2得分高于同为开源的Kimi-K2-Thinking和MiniMax M2。
不过, DeepSeek也承认,与Gemini3 Pro等前沿闭源模型相比,自家模型仍存在一定的局限性。首先,V3.2的世界知识广度仍落后于领先的专有模型,其次在令牌(Token)效率方面,V3.2通常需要更多的令牌才能达到像Gemini3 Pro这样的模型输出质量。在解决复杂任务方面也不如前沿模型。
DeepSeek方面称,团队计划在未来通过增加预训练计算量来填补知识空白,并专注于优化模型推理链的智能密度以提高效率,进一步改进基础模型和训练后方案。
一位AI智能体业内人士在实测后向《科创板日报》记者表示,DeepSeek的多智能体效果优于国内其他模型,而低于谷歌Gemini。
对于DeepSeek近期的新模型都在发力智能体,卢言霞认为,未来的大模型就是智能体平台,这是必然趋势。
“大模型衍生出来的智能体,将首先在部分垂直应用场景落地。然而,要构建系统级的智能体,仍要克服数据、硬件、知识融合与外部生态协同等多重挑战。展望未来,专用的智能体开发平台将应运而生。一个明确的趋势是,基础大模型能力将越来越延伸,进化为可自主行动的智能体。”
从智能体的发展方向上来看,田丰表示,目前在深度思考、调用工具两类发展方向上渐趋融合,同时解决长记忆能力、复杂任务规划能力。
此外,服务执行正在取代信息搜索。田丰表示,初级智能体只能查询信息、缺少执行能力,而以千问app、豆包AI、 DeepSeek等为代表的智能体,则能将购物、支付、物流、社交、娱乐等综合O2O服务融为一体,即是百事通,又是“全能管家”。
田丰还看好智能体解决行业专有问题。“法律、财会、医疗、制造、能源、政务、教育等智能体将成为刚需,万金油不如一招鲜,用户会对解决工作生活刚需的专用智能体更有兴趣,通过通用智能体调用专用智能体也成为一篮子协同模式。”
(文章来源:财联社)