ARC Prizeによると、ZhipuのGLM-5.2モデルが最近、ARC-AGIベンチマークで公式検証を達成しました。ARC-AGI-2では、GLM-5.2は平均コスト0.25ドルで22.8%の精度を達成し、より簡単なARC-AGI-1ベンチマークでは、1回あたり0.19ドルで77.0%の精度を達成しました。
GLM-5.2の全体的な性能は、低推論努力モードのOpenAIのGPT-5.4およびGPT-5.5に匹敵します。ARC-AGIは、トレーニング中に一度も見たことのない抽象的なパターン認識タスクを通じて、AGIレベルの推論能力を評価するために設計されています。