AA-公文包發布:Claude Fable 5奪冠,GLM-5.2挤进前三
Artificial Analysis推出首個面向大模型智能體的長周期知識工作評測基準,涵蓋數據科學、產品管理、銀行運營與重工業戰略四場景,設91項任務,由谷歌、麥肯錫、波士頓咨詢專家開發。結果顯示,Claude Fable 5奪冠,Opus 4.8次之,GLM-5.2居前三;但在單項全對標準下,Fable 5的完美率僅3%。開源GLM-5.2綜合分僅比Opus 4.8低90分,成本卻不足其25%。
90.92萬 熱度
1.39萬 熱度
89.41萬 熱度
179.12萬 熱度
7.93萬 熱度