用编程大模型登顶开源第一后，智谱GLM团队被拷问了3小时_知识

用编程大模型登顶开源第一后，智谱GLM团队被拷问了3小时

创始人

2025-12-24 21:46:46

金磊发自凹非寺

量子位 | 公众号 QbitAI

真是越到年底，越是神仙打架。

这不，智谱又又又发了新模型——GLM-4.7。

然后一举在代码竞技场WebDev榜单上超越GPT-5.2，拿下开源大模型第一！

现在网友们也正在拿它疯狂实测中，体验完几乎都是清一色的“Amazing”。

直接来感受一下网友拿着GLM-4.7和Gemini 3同时做的桌版溜溜球游戏，让网友直呼：

GLM-4.7完胜！

那么，为什么GLM-4.7这次会在编程效果上有这么大的进步？

就在今天早些时候，智谱还特意在Reddit上举办了一场AMA（Ask Me Anything）活动，关于背后的一切，都已经回答得清晰明了。

关于GLM-4.7，智谱回答一切

这场对话不仅揭示了GLM-4.7如何通过后训练实现性能飞跃，还首次深度曝光了自研的强化学习框架——Slime。

我们整理了这场AMA的核心精华，看看这个被称为“Claude Code最佳平替”的国产模型，究竟是怎么炼成的。

模型性能与优化

首先就是大家最为关心的，为什么GLM-4.7会在体感上有如此明显的进步。

智谱团队在AMA中明确表示，GLM-4.7的改进主要集中在后训练阶段。

在SFT（监督微调）和RL（强化学习）阶段，团队采用了更精细的发布配方（Release Recipe）。通过对不同领域数据集的对齐，模型不仅在基准测试上跑分更高，在实际部署中的稳定性也大幅提升。

而针对社区关于“为何不出更大参数量模型”的疑问，智谱团队直言：

训练成本和部署成本是设计的核心锚点。

GLM-4.7在设计之初就考虑了硬件限制。团队目标是让模型在消费级显卡上也能跑出Air版本的灵活性，同时保持接近30B甚至更高规模的逻辑能力。这种在有限参数下压榨极致性能的思路，正是为了让AI真正落地。

除此之外，智谱分享了他们建立的一套复杂的预训练数据流程：

多源采集：涵盖从高质量论文到小说等各类文本。
极致清理：包含去重、质量过滤和敏感词筛查。
对齐策略：重点关注SFT和RL阶段，让写作风格不再像机器人，而是更加生动细致。

模型应用场景与功能

如果说以前的GLM是个有些死板的理科生，那么4.7版本则是完成了一次情商逆袭。

在AMA中，开发者问得最多的就是编程。智谱团队坦言，他们针对Claude Code做了大量的优化和适配工作。

目前，GLM-4.7在多语言编码方面表现出色，不仅支持Python、JS，在一些相对冷门的语言和复杂的逻辑架构上也展现了极强的理解力。

团队认为，智能体框架对性能的影响占比高达30%，因此GLM-4.7在系统提示词、工具调用层级上做了深度打磨。

为了让模型更像人，团队从大量小说和剧本中汲取养分。

现在的GLM-4.7在创意写作时，细节描写更加丰富，不再只会说“在一个阳光明媚的下午”这种套话。在角色扮演任务中，它能更好地维持人设，减少出戏的频率。

除此之外，GLM-4.7还引入了一个非常硬核的功能：交错思考（Interleaved Thinking）。

在执行动作或调用工具之前，模型会先进行一段隐性思考。这种类似OpenAI o1的思维链机制，让它在处理复杂的多模态任务（如看图写代码、图表分析）时，减少了鲁莽操作的概率，提高了准确度。

技术方法与工具

智谱之所以在海外社区受欢迎，与其积极拥抱开源的态度密不可分。

这次AMA最让人惊喜的莫过于Slime框架的公开。

为了解决大模型强化学习效率低、稳定性差的问题，智谱研发并开源了Slime。

这个框架专为大规模强化学习设计，支持多种对齐算法。它的名字寓意着“灵活且具有极强适应性”，能够帮助开发者更容易地复现GLM级别的对齐效果。

智谱表示，他们从开源生态中获益良多，因此也乐于回馈。

他们详细描述了从数据收集、清理到质量过滤的完整流水线。这种透明度在目前的国产大模型厂商中并不多见，也赢得了LocalLLaMA社区的一致尊重。

在 Reddit 上，智谱团队展现了极其接地气的一面。

有用户问：“你们训练时遇到最意外的挑战是什么？”

团队回答：“最大的挑战其实是发布配方。就像厨师手里有最好的食材（数据），但怎么掌握火候（RL参数）让它在出锅时最完美，往往需要无数次的推倒重来。”

还有人调侃：“GLM-4.7是不是吃了什么灵丹妙药？”

团队则幽默回应：“主要是我们学会了如何让它在行动之前多想一想。”

实测GLM-4.7

在了解完GLM-4.7背后的“奇技淫巧”之后，我们还是老规矩，一波实测走起~

首先值得注意的是，现在在z.ai上搞开发，最好是点开“全栈开发”的按钮：

然后我们先做一个植物大战僵尸来小试牛刀，Prompt如下：

请基于当前目录准备的素材（下载 https://z-cdn.chatglm.cn/temp/Grazy%20Dave.mp3 当作游戏音乐，下载 https://z-cdn.chatglm.cn/temp/pvc-images.zip 目录下的各类植物与僵尸静态/GIF图片、Pea.png/PeaSnow.png豆子素材、Shop.png/Card.png界面素材及Sun.gif），做一个《植物大战僵尸》游戏。

可以看到，同样是经典的测试游戏，这次在体感上是“声色俱全”的那种（体验链接放下面了）：

https://chat.z.ai/c/5415b1d8-ac01-4bc6-a24a-8e815c8fa361

除了游戏之外，GLM-4.7另一个体感上的跃迁，便是做PPT了，这个demo的Prompt极其简单：

做一个介绍巴黎的PPT。

可以看到，PPT的效果已经达到了直接商用的程度：

除此之外，做海报也是GLM-4.7的一绝。

例如设计一张宣传运动鞋的海报，对比GLM-4.6和GLM-4.7，效果的差距就一目了然了：

从种种效果来看，也就不难理解为什么这次GLM-4.7会在X上被刷屏了。

承诺上市后持续开源

在这次AMA中，除了技术硬核细节，围观群众最关心的莫过于智谱要上市的事情了。

毕竟最近关于智谱拟赴港IPO的消息引发了圈内不小的关注。

Reddit上有资深老哥犀利发问：“一旦公司上市，你们是否会缩减开源投入？”

智谱团队给出了一个非常坚定的定心丸：“开源是我们的核心基因，无论资本路径如何变化，我们承诺上市后将持续开源。”

团队解释道，智谱深知其成长离不开开源生态的滋养。持续开源不仅是回馈，更是保持技术领先、建立开发者标准的最优路径。这种“即便敲钟，也要开卷”的姿态，确实让不少海外开发者直呼“Respect”。

通过交错思考提升智力上限，通过Slime框架规范训练流程，智谱正在用最硬核的方式证明：国产模型不仅能跑分，更能实战。

并且从用户们的反馈来看，GLM-4.7以及智谱长期以来的工作也是被给予了高度的认可。

例如有网友从价格角度评价说：

GLM 4.7的1年订阅（接近Opus 4.5级别）= Codex/Claude Code的1个月Max Plan。

我现在就立马订一年的。

包括估值40亿美元的Fireworks也在Day0支持GLM 4.7，嗯，美国人也是有更好的模型选择了。

上一篇：出门问问与“学习强国”AI频道正式达成战略合作

下一篇：智谱GLM-4.7拿下开源/国产双第一；阿里Qwen3-TTS，可生成拟人音色 | 蓝媒GPT

用编程大模型登顶开源第一后，智谱GLM团队被拷问了3小时

相关内容

热门资讯