GLM-4.7 开源！交出“生产级代码”

文章介绍了智谱公司最新开源的大模型 GLM-4.7，该模型重点对编程场景进行了优化。它在编码、推理和智能体三个维度实现了突破，包括多语言编码能力、前端生成质量、工具调用能力以及数学和推理能力的显著提升。GLM-4.7 在多个主流基准测试（如 Claude Code、SWE-bench 等）中表现优异，达到或超越了业界领先水平，特别是在 Code Arena 中位列开源第一、国产第一，并超越了 GPT-5.2，在 HLE 基准测试中超越 GPT-5.1。文章还详细阐述了 GLM-4.7 在真实编程任务中的性能提升、可控的思考进化机制（交错式、保留式、轮级思考），以及在复杂任务执行和前端审美方面的增强。GLM Coding Plan 也已升级至 GLM-4.7，并提供了体验卡礼包。文章结尾引用了全球开发者社区对 GLM Coding 体验的积极反馈，强调了 GLM-4.7 在生产级代码生成方面的潜力。

2025-12-23 19:06 浙江

src="https://api.eyabc.cn/api/picture/scenery/?k=1739245c&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FHytN6OfQHzVwGJicQn2tVsOt0kuZ2dibIiarSqYz3XBO391VqnMBISvAq46UL4Cm9rF8LpTsYKL32gdAZNF0rzdKg%2F0%3Fwx_fmt%3Djpeg">

面向Coding场景强化了编码能力、长程任务规划与工具协同，在多项主流公开基准测试中取得开源模型的领先表现

user@zhipu-ai:~/glm-4.7
智谱AI模型GLM系统NEURAL神经网络TRANSFORMER
$ systemctl status neural-engine
● neural-engine.service - Active: running
$ ./deploy.sh --model=GLM-4.7
EMBEDDING∷VECTOR∷TOKEN∷STREAM∷PROCESSING
GLM-4.7
REASONING∷AGENT∷CODE∷GENERATION∷BENCHMARK
✦ Generated by GLM-4.7
RELEASE MANIFEST
01SUBJECT
        GLM-4.7开源：人人编程的时代到来
       
02DATE
        2025.12.23
       
03TARGET
        Coding/Agent/Reasoning
       
04STATUS
RELEASED

由GLM-4.7生成

今天，智谱 GLM-4.7上线并开源！新版本面向Coding场景强化了编码能力、长程任务规划与工具协同，并在多项主流公开基准测试中取得开源模型中的领先表现。

同步，GLM-4.7 已通过BigModel.cn提供API，并在z.ai全栈开发模式中上线全新Skills模块，支持多模态任务的统一规划与协作执行。

Github：https://github.com/zai-org/GLM-4.5

模型：https://modelscope.cn/models/ZhipuAI/GLM-4.7

blog：https://z.ai/blog/glm-4.7

在线体验

z.ai：体验GLM-4.7全栈开发

智谱清言APP/网页版：体验GLM-4.7全新对话、创作与编程

API 接入

开放平台：BigModel.cn

GLM Coding Plan已升级GLM-4.7

Coding能力再提升

GLM-4.7在编程、推理与智能体三个维度实现突破：

更强的编程能力：显著提升了模型在多语言编码和在终端智能体中的效果；GLM-4.7现在可以在Claude Code、TRAE、Kilo Code、Cline和Roo Code等编程框架中实现“先思考、再行动”的机制，在复杂任务上有更稳定的表现。
前端审美提升：GLM-4.7在前端生成质量方面明显进步，能够生成观感更佳的网页、PPT 、海报。
更强的工具调用能力：GLM-4.7提升了工具调用能力，在BrowseComp网页任务评测中获得67.5分；在τ²-Bench交互式工具调用评测中实现87.4分的开源SOTA，超过Claude Sonnet 4.5。
推理能力提升：显著提升了数学和推理能力，在HLE（"人类最后的考试"）基准测试中获得42.8%的成绩，较GLM-4.6提升41%，超过GPT-5.1。
通用能力增强：GLM-4.7对话更简洁智能且富有人情味，写作与角色扮演更具文采与沉浸感。

Code Arena：全球百万用户参与盲测的专业编码评估系统，GLM-4.7位列开源第一、国产第一，超过GPT-5.2。

在主流基准测试表现中，GLM-4.7的代码能力对齐Claude Sonnet 4.5：在SWE-bench-Verified获得73.8%的开源SOTA分数（相较GLM-4.6提升5.8%）；在LiveCodeBench V6达到84.9的开源SOTA分数，超过Claude Sonnet 4.5；SWE-bench多语言版达到66.7%（提升12.9%）；Terminal Bench 2.0达到41%（提升16.5%）。

GLM-4.7 开源！交出“生产级代码”

真实编程场景下的体感提升

1.实际编程任务表现

在Claude Code环境中，我们对100个真实编程任务进行了测试，覆盖前端、后端与指令遵循等核心能力。结果显示，GLM-4.7相较GLM-4.6在稳定性与可交付性上均有明显提升。

随着编程能力的增强，开发者可以更自然地以“任务交付”为核心组织开发流程，形成从需求理解到落地实现的端到端闭环。

2.思考能力的可控进化

GLM-4.7进一步强化了GLM-4.5以来就支持的交错式思考能力，引入保留式思考与轮级思考，使复杂任务执行更稳、更可控。

交错式思考：每次回答/工具调用前都会思考，提升复杂指令的遵循能力和代码生成质量。
保留式思考：多轮对话中自动保留思考块，提升缓存命中率，降低成本，适合长程复杂任务。
轮级思考：支持在同一会话内按“轮”控制推理开销——简单任务可关闭思考以降低时延，复杂任务可开启思考以提升准确性与稳定性。

3.综合任务执行能力

GLM-4.7在复杂任务中展现出更强的任务拆解与技术栈整合能力，能够一次性给出完整、可运行的代码，并明确关键依赖与运行步骤，显著减少人工调试成本。

案例展示由GLM-4.7独立完成的高交互小游戏，如植物大战僵尸、水果忍者。

4.前端审美提升

GLM-4.7增强了对视觉代码的理解。在前端设计中，它能更好地理解UI设计规范，在布局结构、配色和谐度及组件样式上提供更具美感的默认方案，从而减少开发者在样式“微调”上花费的时间。

GLM-4.7在办公创作中版式与审美显著升级，PPT 16:9适配率从52%跃升至91%，生成结果基本“即开即用”；海报设计的排版与配色更加灵活，具备设计感。

GLM Coding Plan

GLM Coding Plan已更新GLM-4.7，为开发者提供性能、速度与价格的最优组合。

Claude Code全面支持思考模式，复杂任务连续推理与执行更稳定
针对编程工具里的Skills/Subagent/Claude.md等关键能力定向优化，工具调用成功率高、链路可靠
Claude Code中视觉理解能力开箱即用；内置搜索与网页读取，信息获取到代码落地一站闭环
架构设计与指令遵循更强，明显降低长上下文下的“幻觉式完成/跑偏”，交付质量更可控

作为本次升级的首个体验权益，所有购买套餐的用户将获得「体验卡」礼包，可邀请3–7位新用户免费体验7天套餐权益。

领取链接：https://www.bigmodel.cn/usercenter/glm-coding/overview

来自全球开发者社区的反馈印证了GLM畅快的Coding体验。

TRAE：“前序版本GLM-4.6上线后，为TRAE用户提供了稳定的编程辅助支持，助力用户高效解决各类编程需求，并且凭借稳定表现，成为TRAE用户的主流模型选择之一。GLM-4.7模型现已上线TRAE中国版，开发者可在内置模型列表直接选用。”
Cerebras：“GLM-4.6在Cerebras硬件上能够达到无与伦比的1000 t/s速度，为全球开发者提供了世界上最优质的编码体验之一。”
YouWare：“在我们的Vibe Coding产品YouWare的基准数据集上，GLM-4.7相比上一代模型在前端设计美学、复杂功能完成度、工具并发和指令遵循等方面均有明显提升，同时推理速度更快、token效率更高，整体任务端到端完成度、稳定性大幅增强。”

此外，Vercel、OpenRouter、CodeBuddy等平台与开发者也对GLM Coding Plan给予高度评价。

点击阅读原文，直达模型链接~

👇 点击关注ModelScope公众号获取
更多技术信息~

阅读原文

跳转微信打开

{{userData.name}}已认证

GLM-4.7 开源！交出“生产级代码”

Coding能力再提升

真实编程场景下的体感提升

1.实际编程任务表现

2.思考能力的可控进化

3.综合任务执行能力

4.前端审美提升

GLM Coding Plan

AprielGuard：现代大型语言模型（LLM）系统安全与对抗鲁棒性的守护者

只靠国产算力与开源数据，端侧模型预训练行不行？我们做到了全流程开源

内存一年疯涨 170%，云账单里的“隐性成本”该算清了

AWS 如何重新发明云计算

Veo 3.1 提示工程终极指南

单个 4090 就能跑，Mistral 开源多模态小模型，开发者：用来构建推理模型足够香

AI 语音的 Her Moment: 个性化交互达到临界点

如何不用空格打字——顶功类输入法简介