GLM-5.2：Z.ai 发布旗舰开源模型，1M 可用上下文挑战闭源长程任务

Z.ai 发布 GLM-5.2，1M 可用上下文 + 多级思考力度控制，开源模型首次挑战闭源旗舰长程任务能力

一、GLM-5.2 是什么

GLM-5.2 是 Z.ai 面向长程任务时代的旗舰模型。核心亮点是一个真正可用的 1M token 上下文窗口——不是在评测指标上好看，而是在真实的工程场景中能稳定工作。它能在单次任务中处理项目级别的工程上下文、可靠执行长时间运行的任务、一致性遵循工程规范，并且完成从需求到多平台部署的完整开发工作流。

二、三大新特性

Solid 1M 上下文：1M token 的前置上下文，能稳定支撑长程工作，不只是接受更多 token，而是在混乱的代码轨迹中保持质量。
多级思考力度控制：更强的编程能力，提供 High 和 Max 两个思考努力级别，让用户在性能、延迟和计算成本之间自由平衡。
纯粹开源：MIT 开源许可证——技术无国界。

三、长程任务能力：开源最强，紧追闭源旗舰

GLM-5.2 在三个长程编码基准测试中表现亮眼，全部位列开源模型第一：

基准测试	说明	GLM-5.2 表现	排名
FrontierSWE	衡量 Agent 完成数小时到数十小时的开放式技术项目	落后 Opus 4.8 仅 1%，领先 GPT-5.5 1%，领先 Opus 4.7 11%	开源第一，整体第二
PostTrainBench	给 Agent 一块 H100 GPU，评判其对小模型的后训练改进能力	超越 Opus 4.7 和 GPT-5.5	仅次于 Opus 4.8
SWE-Marathon	超长程任务，包括构建编译器、优化内核、开发生产级服务	落后 Opus 4.8 13%	仅次于 Opus 系列

这三个基准的共性在于：它们测试的不是模型能接受多少 token，而是模型在数万 token 的真实工程轨迹中能否持续保持高质量输出——这正是 GLM-5.2 的 1M 上下文训练的落脚点。

四、更强编程能力：开源标杆

在标准编程基准上，GLM-5.2 大幅领先前代 GLM-5.1，并显著缩小了与闭源前沿的差距：

基准测试	GLM-5.2	GLM-5.1	Claude Opus 4.8	Gemini 3.1 Pro
Terminal-Bench 2.1	81.0	62.0	85.0	低于 GLM-5.2
SWE-bench Pro	62.1	58.4	—	—

Terminal-Bench 2.1 上 81.0 的成绩距离 Claude Opus 4.8 的 85.0 仅差 4 分，而 Gemini 3.1 Pro 已被甩在身后。

GLM-5.2 引入的 effort level 控制是一大亮点。在同等 token 预算下，GLM-5.2 的 Agent 编程能力显著强于 GLM-5.1，能力定位大致介于 Claude Opus 4.7 和 Opus 4.8 之间。当你遇到高难度任务时，切换到 Max 力度级别可分配更多计算资源，换取更高性能。

五、总结判断

GLM-5.2 是截至目前 开源模型在长程 Agent 任务上的最强选手。它的 1M 上下文不是噱头，而是在 FrontierSWE、PostTrainBench、SWE-Marathon 三个真实工程场景中验证过的能力。在标准编程能力上，它稳坐开源第一把交椅，并首次让开源模型与闭源旗舰的差距缩小到个位数百分比。

对于 AI Agent 开发者、长程自动化场景和需要高质量代码生成的团队，GLM-5.2 是目前开源阵营中最值得关注的选择。配合 MIT 开源协议和 Ollama 一键部署，上手几乎没有门槛。

一、GLM-5.2 是什么

二、三大新特性

三、长程任务能力：开源最强，紧追闭源旗舰

四、更强编程能力：开源标杆

五、总结判断

发表回复 取消回复

发表回复取消回复