Sakana AI Fugu Ultra vs Fable 5: Perbandingan Benchmark Dipertanyakan karena Perbedaan Kerangka Pengujian

Menurut pemantauan Beating, klaim kemenangan sistem multi-agen Sakana AI, Fugu Ultra, atas Fable 5 milik Anthropic dalam tolok ukur penalaran ilmiah dan pengkodean mendapat skeptisisme luas dari komunitas AI.

Para kritikus berpendapat bahwa skor tolok ukur sangat bergantung pada kerangka pengujian yang digunakan selama evaluasi. Implementasi kerangka yang berbeda dapat menyebabkan variasi 10-20 poin, yang berarti perbedaan kinerja yang dilaporkan mungkin mencerminkan optimalisasi rekayasa sistem, bukan kemajuan kemampuan model fundamental. Baik Sakana AI maupun Anthropic merilis hasil berdasarkan kerangka kepemilikan dan spesifik vendor tanpa lingkungan pengujian pihak ketiga yang terpadu, sehingga membatasi keandalan perbandingan langsung.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar