2万
1万
11万
管理员
我给新佬解读一下,每一列是一个大型测试项目,比如macOS应用构建,分值代表依据表现的扣分值,越低越好,等级表示实际编程体验评分,等级比分数重要。unprompt表示一个项目仅需初始人工指令即可通过。如果一个题目上代模型已通过,则新代不测,记为Skip。 从结果来看,大概是和opus4.6差不多,完全自主能力稍差,需要人类提示修复,但是整体错误会少一点
模型离A 越近,道德就离A 越近,达里奥的诅咒
使用道具 举报
0
2072
4144
VIP(年费)
本版积分规则 发表回复 回帖后跳转到最后一页
微信
社群
VIP
AI
顶部
|本站内容来源网友投稿或网络转载,如果有侵权的内容,请联系我们删除。|小黑屋|人人为我,我为人人!| 星颖资源网
GMT+8, 2026-6-13 20:43 , Processed in 0.051728 second(s), 25 queries .