人工分析發布程式碼代理基準測試;智譜 GLM-5.1 在開源模型中名列第一

人工分析(Artificial Analysis)今天發布一份新的「程式代理(Coding Agent)指標」,用以評估當 AI 模型與代理框架結合時在多項關鍵基準測試上的表現,包括 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 與 SWE-Atlas-QnA。在此次評估中,智譜 GLM-5.1 在開源模型中排名第一,展現出在真實世界的程式代理場景中的領先效能。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆