Theo dõi của Beating, hệ thống đa tác tử Fugu Ultra của Sakana AI tự nhận đã vượt qua Fable 5 của Anthropic trong các điểm chuẩn về lập luận khoa học và lập trình, nhưng vấp phải sự hoài nghi rộng rãi từ cộng đồng AI.
Các nhà phê bình cho rằng điểm số điểm chuẩn phụ thuộc nhiều vào khung thử nghiệm được sử dụng trong quá trình đánh giá. Các khung thử nghiệm khác nhau có thể tạo ra chênh lệch 10-20 điểm, nghĩa là sự khác biệt hiệu suất được báo cáo có thể phản ánh tối ưu hóa kỹ thuật hệ thống hơn là các tiến bộ cơ bản về năng lực mô hình. Cả Sakana AI và Anthropic đều công bố kết quả dựa trên các khung thử nghiệm độc quyền riêng của từng nhà cung cấp, không có môi trường thử nghiệm thống nhất của bên thứ ba, hạn chế độ tin cậy của các so sánh trực tiếp.