開源GLM-5.2性價比殺瘋了,成本不到Opus 4.8的四分之一,分數卻只差90分,這評測看得我直呼真香

查看原文
币 界 网
AA-公文包發布:Claude Fable 5奪冠,GLM-5.2挤进前三
Artificial Analysis推出首個面向大模型智能體的長周期知識工作評測基準,涵蓋數據科學、產品管理、銀行運營與重工業戰略四場景,設91項任務,由谷歌、麥肯錫、波士頓咨詢專家開發。結果顯示,Claude Fable 5奪冠,Opus 4.8次之,GLM-5.2居前三;但在單項全對標準下,Fable 5的完美率僅3%。開源GLM-5.2綜合分僅比Opus 4.8低90分,成本卻不足其25%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆