人工分析がコーディングエージェントのベンチマークを公開;Zhipu GLM-5.1 はオープンソースモデルの中で1位にランクイン

人工分析は本日、新しい「Coding Agent Index」を公開し、SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA を含む主要ベンチマークにおいて、エージェント・フレームワークと組み合わせたときにAIモデルがどのように性能を発揮するかを評価しました。Zhipu GLM-5.1 は評価においてオープンソースモデルの中で1位にランクインし、実世界のコーディング・エージェントのシナリオで優れたパフォーマンスを示しました。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし