星颖资源网

 找回密码
 立即注册
查看: 14|回复: 1

这次真的超过Opus4.6了?GLM5.2的实际工程编程测评成绩(Nao佬)

[复制链接]

2万

主题

1万

回帖

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
115293
发表于 4 小时前 | 显示全部楼层 |阅读模式

我没看错吧,这个成绩应该真的能到Opus4.6Thinking了!!!A畜即将面临下架Fable的神罚!!!

但是ZP别发布一周后猛猛降智,变成Z畜
完整榜单 LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-06%7C0)

这次真的超过Opus4.6了?GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/15)前沿快讯 (https://linux.do/c/news/34)
我给新佬解读一下,每一列是一个大型测试项目,比如macOS应用构建,分值代表依据表现的扣分值,越低越好,等级表示实际编程体验评分,等级比分数重要。unprompt表示一个项目仅需初始人工指令即可通过。如果一个题目上代模型已通过,则新代不测,记为Skip。 从结果来看,大概是和opus4.6差不多,完全自主能力稍差,需要人类提示修复,但是整体错误会少一点

这次真的超过Opus4.6了?GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/32)前沿快讯 (https://linux.do/c/news/34)
模型离A

越近,道德就离A

越近,达里奥的诅咒
智谱真是上市后猛猛发力啊,不像Minimax已经靠M3成为路边一条了,开源了都无人问津
回复

使用道具 举报

0

主题

2072

回帖

4144

积分

VIP(年费)

积分
4144
发表于 2 小时前 | 显示全部楼层
就是为了这个资源开了终身,哈哈哈
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信

社群

VIP

AI

顶部

QQ|本站内容来源网友投稿或网络转载,如果有侵权的内容,请联系我们删除。|小黑屋|人人为我,我为人人!| 星颖资源网

GMT+8, 2026-6-13 20:43 , Processed in 0.051728 second(s), 25 queries .

快速回复 返回顶部 返回列表