Menurut pemantauan Beating, klaim kemenangan sistem multi-agen Sakana AI, Fugu Ultra, atas Fable 5 milik Anthropic dalam tolok ukur penalaran ilmiah dan pengkodean mendapat skeptisisme luas dari komunitas AI.
Para kritikus berpendapat bahwa skor tolok ukur sangat bergantung pada kerangka pengujian yang digunakan selama evaluasi. Implementasi kerangka yang berbeda dapat menyebabkan variasi 10-20 poin, yang berarti perbedaan kinerja yang dilaporkan mungkin mencerminkan optimalisasi rekayasa sistem, bukan kemajuan kemampuan model fundamental. Baik Sakana AI maupun Anthropic merilis hasil berdasarkan kerangka kepemilikan dan spesifik vendor tanpa lingkungan pengujian pihak ketiga yang terpadu, sehingga membatasi keandalan perbandingan langsung.