这次真的超过Opus4.6了？GLM5.2的实际工程编程测评成绩(Nao佬)

星*** · 发表于 2026-6-13 15:55:31

我没看错吧，这个成绩应该真的能到Opus4.6Thinking了！！！A畜即将面临下架Fable的神罚！！！

但是ZP别发布一周后猛猛降智，变成Z畜
完整榜单 LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-06%7C0)

这次真的超过Opus4.6了？GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/15)前沿快讯 (https://linux.do/c/news/34)

我给新佬解读一下，每一列是一个大型测试项目，比如macOS应用构建，分值代表依据表现的扣分值，越低越好，等级表示实际编程体验评分，等级比分数重要。unprompt表示一个项目仅需初始人工指令即可通过。如果一个题目上代模型已通过，则新代不测，记为Skip。从结果来看，大概是和opus4.6差不多，完全自主能力稍差，需要人类提示修复，但是整体错误会少一点

这次真的超过Opus4.6了？GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/32)前沿快讯 (https://linux.do/c/news/34)

模型离A

越近，道德就离A

越近，达里奥的诅咒

智谱真是上市后猛猛发力啊，不像Minimax已经靠M3成为路边一条了，开源了都无人问津

ZhaoX*** · 发表于 2026-6-13 18:12:11

就是为了这个资源开了终身，哈哈哈

坤龙*** · 发表于 2026-6-18 02:46:57

老哥，可以链接一下吗

XiaoX*** · 发表于 2026-6-20 07:10:26

看到就转：年轻不是你玩的理由，而是你奋斗的资本。告诫年轻人要珍惜青春时光，努力奋斗

老*** · 发表于 2026-6-24 01:56:50

跟着星宝们暴风成长，终于摆脱咸鱼体质了

中国*** · 发表于 2026-6-28 10:53:18

今日提升，看到就是学到：提升数据就是提高用户动作的几率，而用户产生动作的诱因是什么？落脚点还是要放在内容上，放在信息的传递上。

人间*** · 发表于 2026-7-3 02:31:51

别人追剧我追课，这波我在第五层

职场*** · 发表于 2026-7-6 14:19:43

被星友三个月逆袭刺激到了，这次死磕到底！

琢磨*** · 发表于 2026-7-9 10:06:42

谢谢分享，一个干净的交际圈很重要啊！

		自动登录	找回密码
密码			立即注册