这项由智谱AI公司与清华大学联合开展的研究发表于2026年2月的arXiv预印本平台,论文编号为arXiv:2602.15763v1。有兴趣深入了解技术细节的读者可以通过该编号在arXiv平台查询完整论文。
在人工智能编程的发展历程中,我们正经历着一个关键转折点。过去,程序员与AI协作编程往往依靠的是一种"感觉流"的方式——人类提出需求,AI根据理解生成代码,这个过程充满了不确定性和反复调整。而现在,智谱AI推出的GLM-5模型标志着我们正式进入"工程智能"时代,AI开始具备独立规划、实施和迭代的完整工程能力。
GLM-5是一个参数规模达到7440亿的超大型语言模型,其中激活参数为400亿。这个模型的突破性在于它不再是被动的代码生成工具,而是具备了真正的工程思维能力。就像从手工作坊升级到现代化工厂一样,GLM-5能够自主进行项目规划,分解复杂任务,并在整个开发过程中持续优化和调整策略。
模型的训练过程就像培养一位全能工程师。研究团队首先让它学习了28.5万亿个token的基础知识,这相当于让它阅读了人类历史上几乎所有的代码库和技术文档。接着,他们特别加强了模型在长文本理解方面的能力,将其上下文理解长度扩展到20万token,这意味着它能够完整理解和处理大型软件项目的全部代码结构。
最令人印象深刻的是GLM-5的"思考"能力。在处理复杂编程任务时,它会在每次生成代码前进行深入思考,分析问题的本质,制定解决方案,甚至预测可能出现的问题。这种能力被称为"交错思考",就像一位经验丰富的工程师在动手前总是先在脑海中构思整个实现方案一样。
更有趣的是,GLM-5还具备"保持思考"的能力,特别是在处理多轮对话的编程任务时。传统的AI模型往往在新的对话轮次中"忘记"之前的思考过程,需要重新分析问题。而GLM-5就像拥有了持久记忆的工程师,能够在整个项目开发过程中保持思路的连贯性,避免重复性的分析工作。
在实际应用效果方面,GLM-5的表现确实令人瞩目。在多个国际权威编程测试中,它都取得了开源模型中的最高分数。特别是在SWE-bench这个被誉为"编程界的高考"的测试中,GLM-5获得了77.8分的成绩,这个分数已经接近一些顶级商业模型的表现。
更重要的是,GLM-5在真实世界的软件开发任务中展现出了前所未有的能力。研究团队设计了一套全新的评测体系CC-Bench-V2,专门测试AI模型在真实软件开发环境中的表现。这套测试不是简单的代码片段生成,而是要求模型完成完整的前端开发、后端工程和长期项目维护任务。在这些更接近真实工作场景的测试中,GLM-5展现了接近人类软件工程师的工作能力。
一、从"感觉流编程"到"工程智能"的技术变革
理解GLM-5的革命性意义,需要从编程协作方式的根本变化说起。传统的AI编程辅助就像是一个技术很好但缺乏规划能力的助手。你告诉它"我需要一个网站",它会立即开始写代码,但往往缺乏整体的架构思考,容易在复杂项目中迷失方向。这种工作方式被称为"感觉流编程"——完全依赖直觉和即时反应。
GLM-5代表的"工程智能"则完全不同。它就像一位经验丰富的项目经理兼技术专家,收到需求后会首先进行系统性的分析:项目的整体架构应该如何设计?需要哪些技术栈?可能遇到哪些技术难点?如何分阶段实施?这种系统性的工程思维正是GLM-5的核心优势。
这种转变的技术基础来自于几个关键创新。首先是模型规模的大幅提升。GLM-5采用了专家混合(MoE)架构,将总参数量扩展到7440亿,但同时保持400亿的激活参数,这就像拥有了一个超大规模的专家团队,每次只调用最相关的专家来解决特定问题。
更重要的创新是引入了DeepSeek稀疏注意力机制(DSA)。这个技术的巧妙之处在于它让模型能够处理极长的上下文信息,而不会因为计算量的爆炸性增长而变得缓慢。想象一下,这就像给模型配备了一副特殊的"眼镜",能够在浩如烟海的信息中迅速定位到最关键的部分,从而在处理大型项目时保持高效率。
在训练方法上,GLM-5采用了全新的异步强化学习框架。传统的模型训练就像工厂的流水线,每个环节都必须等待上一个环节完成。而GLM-5的训练更像是一个高效的协作团队,不同的训练任务可以并行进行,大大提高了训练效率。这种创新使得模型能够在学习编程技能的同时,也学会了项目管理和工程规划的能力。
二、核心技术架构:构建AI工程师的"大脑"
GLM-5的技术架构就像是为AI工程师精心设计的"大脑结构"。这个大脑由多个相互协作的"思维中心"组成,每个中心负责不同类型的任务处理。
模型的基础架构采用了混合专家系统,就像一个拥有256个不同领域专家的智囊团。当遇到前端开发问题时,会自动调用前端专家;处理数据库问题时,则切换到数据库专家。这种设计确保了模型在各个技术领域都能提供专业水准的解决方案。
特别值得关注的是GLM-5的注意力机制创新。传统的注意力机制在处理长文本时会遇到计算量激增的问题,就像试图同时关注房间里的每一个细节一样费力。GLM-5引入的稀疏注意力机制则更加智能,它能够自动识别文本中的关键信息,将注意力集中在最重要的部分,这样既保证了理解的准确性,又大大提高了处理效率。
在多令牌预测方面,GLM-5采用了参数共享策略。这项技术让模型在生成代码时不是逐个字符地输出,而是能够一次生成多个相关的代码片段。这就像从一个字母一个字母地书写升级到了整个单词甚至句子的流畅书写,大大提高了代码生成的速度和连贯性。
模型的上下文处理能力也得到了显著增强。GLM-5能够处理长达20万token的上下文信息,这意味着它能够完整理解一个中等规模软件项目的全部代码库。这种长上下文理解能力使得模型在处理复杂项目时能够保持全局视野,避免局部优化导致的整体架构问题。
三、革命性训练方法:从基础学习到工程实践
GLM-5的训练过程就像培养一位从零开始的工程师成长为资深专家的完整历程。整个训练分为几个精心设计的阶段,每个阶段都有明确的学习目标和能力提升指标。
基础预训练阶段就像让模型接受通用教育。研究团队为GLM-5准备了28.5万亿token的训练数据,这些数据涵盖了代码库、技术文档、学术论文等各种技术资料。模型通过学习这些材料,建立了扎实的编程基础知识和对各种技术概念的深入理解。
中期训练阶段则专注于培养模型的工程实践能力。这个阶段的训练数据主要来自真实的软件开发项目,包括GitHub上的问题解决记录、代码审查历史、项目开发文档等。模型通过学习这些真实案例,掌握了如何在实际项目中应用技术知识。
最创新的部分是后训练阶段,这里采用了全新的异步强化学习方法。传统的强化学习就像让学生一个接一个地完成作业,而GLM-5的异步学习更像是让多个学生同时学习不同的技能,然后将学到的经验相互分享。这种方法大大提高了学习效率,使模型能够在更短的时间内掌握更多样化的技能。
特别值得一提的是模型的"思考"能力训练。研究团队专门设计了交错思考和保持思考的训练方法。交错思考训练让模型学会在生成代码前先进行系统性思考,分析问题、规划方案、预测风险。保持思考训练则让模型学会在多轮对话中保持思路的连贯性,避免重复性的分析工作。
在强化学习的具体实施上,GLM-5采用了分阶段的训练策略。首先是推理强化学习,专注于提升模型的逻辑分析和问题解决能力。然后是智能体强化学习,训练模型的项目规划和任务管理能力。最后是通用强化学习,将各种技能整合成一个统一的工程能力体系。
四、突破性能表现:在各项测试中的卓越成绩
GLM-5在各项评测中的表现就像一位全能选手在多项比赛中都获得了优异成绩。这些测试不仅包括传统的编程能力评估,还涵盖了更贴近真实工作场景的工程实践能力测试。
在推理能力测试方面,GLM-5在"人类最后考试"这个极具挑战性的测试中获得了50.4分,这个成绩在开源模型中排名第一,甚至超过了一些知名的商业模型。这项测试被认为是衡量AI模型综合智能水平的重要指标,GLM-5的优异表现证明了它具备了接近人类专家级别的推理能力。
在编程专项测试中,GLM-5的表现更加突出。在SWE-bench验证集这个被誉为"软件工程界高考"的测试中,GLM-5获得了77.8分的成绩,显著超过了同规模的其他开源模型。这项测试要求模型解决GitHub上真实的软件问题,包括bug修复、功能实现、代码重构等各种实际开发任务。
在多语言编程能力方面,GLM-5在SWE-bench多语言测试中取得了73.3分的成绩,这证明了它不仅精通单一编程语言,而且能够熟练处理多种编程语言的混合项目。现代软件开发往往涉及多种技术栈,GLM-5的这种多语言能力对实际应用具有重要意义。
更令人印象深刻的是GLM-5在智能体任务中的表现。在BrowseComp这个测试网页浏览和信息处理能力的基准测试中,GLM-5获得了75.9分的成绩,远超其他开源模型。这项测试模拟了现实中的信息检索和处理场景,要求模型能够像人类一样浏览网页、理解内容、提取信息并完成指定任务。
在长期规划能力方面,GLM-5在Vending-Bench 2测试中表现优异。这个测试模拟了经营一个自动贩卖机生意的完整过程,要求模型在一年的模拟时间内做出各种商业决策。GLM-5最终实现了4432美元的账户余额,在所有开源模型中排名第一,接近商业模型的水平。
五、实际应用能力:真实工程场景的表现
为了更准确地评估GLM-5在真实工程环境中的能力,研究团队开发了全新的CC-Bench-V2评测体系。这套评测系统不同于传统的代码片段生成测试,而是要求模型完成完整的软件开发项目,就像真正的软件工程师一样工作。
在前端开发测试中,GLM-5需要根据需求描述独立完成完整的网页应用开发。测试涵盖了HTML、React、Vue等多种前端技术栈,要求模型不仅能生成正确的代码,还要确保生成的应用能够正常运行并满足所有功能要求。GLM-5在这项测试中的构建成功率达到了100%,这意味着它生成的代码几乎总是能够成功编译和运行。
在具体的功能实现方面,GLM-5展现了接近专业前端开发者的能力水平。在HTML项目中,它的实例成功率达到38.9%,检查项成功率为76.3%。这意味着虽然完全符合所有要求的项目占比还不够高,但大部分功能需求都能得到正确实现。在React和Vue项目中,GLM-5同样表现出了扎实的技术功底。
后端工程能力测试更加接近真实的软件开发工作。测试项目涵盖了Python、Go、C++、Rust、Java、Type等多种编程语言,任务类型包括功能实现、bug修复、性能优化等各种实际开发场景。GLM-5在这项测试中的通过率为25.8%,虽然看起来不高,但要知道这些都是真实的、复杂的工程问题,能够达到这个水平已经相当不错了。
长期项目维护能力测试可能是最具挑战性的部分。这项测试要求模型像真正的开发者一样,在大型代码库中定位问题、理解项目结构、实施多步骤的改进方案。在代码库探索任务中,GLM-5的成功率达到了65.6%,这表明它具备了在复杂项目中快速定位关键信息的能力。在多步骤任务链测试中,GLM-5的成功率为52.3%,虽然与顶级商业模型还有差距,但已经展现了处理复杂长期项目的能力。
六、中国芯片生态适配:技术自主可控的重要进展
GLM-5项目的一个重要特色是它从设计之初就充分考虑了中国芯片生态系统的特点和需求。研究团队与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原等七个主流国产芯片平台深度合作,实现了全栈优化适配。
这种适配工作就像为不同品牌的汽车定制专用零件一样复杂。每种芯片架构都有其独特的计算特点和优化要求,需要针对性的技术方案。以华为昇腾Atlas系列为例,研究团队实施了混合精度W4A8量化策略,通过精巧的压缩算法将750GB参数的GLM-5模型成功部署到单台Atlas 800T A3机器上。
在具体的优化技术方面,团队开发了多个高性能融合内核,包括闪电索引器、稀疏闪存注意力、多头潜在注意力预处理优化等。这些技术创新就像为引擎安装了涡轮增压器一样,大大提升了模型在国产芯片上的运行效率。
特别值得一提的是推理引擎的专门优化。团队对vLLM-Ascend和SGLang两个主流推理引擎进行了深度适配,实现了异步调度、上下文管理、并行策略等多个层面的优化。通过这些优化,GLM-5在单个国产节点上的性能已经能够媲美双GPU国际集群,同时在长序列场景下的部署成本降低了50%。
这种全面的生态适配不仅仅是技术层面的成就,更代表了中国在AI基础设施方面向自主可控迈出的重要一步。当国外芯片和软件面临供应限制时,这种自主可控的技术栈就显得尤为重要。
七、匿名发布实验:真实能力的客观验证
GLM-5项目最有趣的一个环节是"Pony Alpha"匿名发布实验。这个实验就像一次"盲品测试",研究团队在OpenRouter平台上匿名发布了GLM-5模型,让开发者社区在不知道模型来源的情况下进行测试和评价。
这种匿名测试的价值在于它完全排除了品牌和先入为主印象的影响。开发者们只能根据模型的实际表现来判断其能力水平,这提供了最客观、最真实的评价反馈。在测试期间,Pony Alpha迅速在社区中获得了极高的评价,特别是在复杂编程任务、智能体工作流和角色扮演场景中表现出色。
有趣的是,社区用户对模型来源的猜测五花八门。约25%的用户认为这是Claude Sonnet 5的泄露版本,20%认为是DeepSeek V4,10%认为是Grok模型,其余用户才猜测是GLM-5。这种猜测分布本身就说明了GLM-5已经达到了与顶级商业模型相当的性能水平。
当研究团队最终公布Pony Alpha就是GLM-5时,整个社区都感到了惊讶。这个结果有力证明了中国自主研发的大模型已经具备了与国际顶尖产品竞争的实力。更重要的是,这次匿名测试让GLM-5的能力得到了国际开发者社区的认可,超越了地缘政治因素的影响。
这个实验也反映出当前AI模型评估中存在的一些有趣现象。用户往往会根据模型的品牌和来源产生预设印象,而匿名测试能够更好地反映模型的真实能力水平。对于推动AI技术的客观发展来说,这种评估方式具有重要的参考价值。
八、未来展望:工程智能时代的开启
GLM-5的发布标志着AI编程辅助进入了一个全新的时代。从技术发展的角度看,我们正在见证从"工具型AI"向"伙伴型AI"的转变,AI不再只是被动执行指令的工具,而是能够主动思考、规划和协作的智能伙伴。
这种转变对软件开发行业可能产生深远影响。传统的软件开发流程中,项目规划、架构设计、代码实现、测试调试等环节往往需要不同专业背景的人员协作完成。而GLM-5这样的AI工程师已经具备了贯穿整个开发流程的综合能力,这可能会重新定义软件开发团队的组织结构和工作方式。
从更广阔的视角来看,GLM-5代表的工程智能理念可能会扩展到软件开发之外的其他工程领域。无论是机械设计、电路设计还是建筑规划,都需要类似的系统性思维和工程实践能力。随着这类技术的不断成熟,我们可能会看到AI在各个工程领域发挥越来越重要的作用。
当然,技术发展也带来了新的挑战和思考。当AI具备了接近人类工程师的能力时,如何在保持技术创新活力的同时,确保人类在创造性工作中的主导地位?如何建立人机协作的新模式,让AI成为人类能力的增强器而非替代者?这些都是值得深入探讨的问题。
从开源生态的角度来看,GLM-5的开源发布对整个AI社区具有重要意义。它不仅提供了一个高性能的基础模型,还展示了一套完整的工程智能实现方案。这为其他研究团队和开发者提供了宝贵的技术参考,有助于推动整个领域的快速发展。
说到底,GLM-5的意义不仅在于它展现了当前AI技术的最高水平,更在于它为我们描绘了一个AI与人类深度协作的未来图景。在这个图景中,AI不再是冰冷的工具,而是具备工程思维、能够独立规划和执行的智能伙伴。这种伙伴关系可能会重新定义我们对工作、创造和协作的理解。
当我们站在这个技术变革的关键节点上,GLM-5就像一个重要的里程碑,标志着我们已经跨过了AI辅助编程的初级阶段,正在迈向AI工程智能的新时代。这个时代的特征不是简单的任务自动化,而是真正的智能协作和创造性合作。对于每一个关注技术发展的人来说,这都是一个值得关注和思考的重要时刻。
Q&A
Q1:GLM-5相比传统AI编程助手有什么本质区别?
A:GLM-5最大的区别在于它从"感觉流编程"升级到了"工程智能"。传统AI只是根据指令生成代码片段,而GLM-5具备了完整的工程思维,能够进行项目规划、架构设计、任务分解和长期维护。它就像从技术助手升级成了项目经理兼技术专家。
Q2:GLM-5的7440亿参数规模是否意味着使用成本很高?
A:实际上GLM-5采用了混合专家架构,虽然总参数达到7440亿,但每次只激活400亿参数,这大大降低了计算成本。加上稀疏注意力机制和中国芯片生态的深度优化,GLM-5在长序列场景下的部署成本比同类模型降低了50%。
Q3:普通开发者现在可以使用GLM-5吗?
A:GLM-5已经开源发布,开发者可以通过GitHub平台获取模型和相关代码。同时,它也通过多个推理服务提供商和AI网关平台提供服务,包括Amazon Bedrock、Google Cloud等国际平台以及国内的多个服务商,普通开发者可以根据自己的需求选择合适的使用方式。
上一篇:黄仁勋再度回应AI对软件业影响:市场“判断失误”,AI助手将提高软件效率
下一篇:没有了