📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
智谱GLM-5.2登顶DeepSWE开源第一:解决44%复杂开发任务,力压主力闭源模型
GLM-5.2 解决每项任务的平均成本为 3.92 美元,略高于 Kimi K2.7 Code 的 2.82 美元,成功率却超越了多款主流闭源模型在特定思考配置下的表现,包括 Claude Sonnet 4.6 [high] (30%)、Gemini 3.5 Flash [medium] (37%),以及 Claude Opus 4.8 [low] (41%)。
评测发起方 Datacurve 设计的 DeepSWE 基准专门测试 AI 智能体解决长任务的能力。测试包含 113 个真实编程问题,覆盖 5 种语言。与只修改单处代码的传统测试不同,DeepSWE 要求 AI 协同修改多个文件,平均修复代码超过 600 行。评测在隔离容器中运行,严格限制 CPU 和内存资源。