Google DeepMind AI Co-Mathematician Mencapai 47,9% di FrontierMath Tier 4, Mengalahkan GPT-5.5 Pro, Menyelesaikan 3 Masalah yang Sebelumnya Tidak Bisa Dipecahkan

Google DeepMind merilis asisten AI ko-matematikawan, asisten riset matematika multi-agen, dengan meraih akurasi 47,9% pada benchmark FrontierMath Tier 4, melampaui rekor sebelumnya GPT-5.5 Pro sebesar 39,6% pada 9 Mei. Sistem ini menyelesaikan 23 dari 48 soal, termasuk 3 yang gagal dipecahkan oleh semua model sebelumnya. Dibangun di atas Gemini 3.1 Pro, arsitekturnya menggunakan desain hierarkis dengan agen koordinator proyek yang mendistribusikan tugas ke sub-agen untuk menangani penelusuran literatur, pemrograman, dan penalaran, dengan beberapa agen pengulas memvalidasi bukti sebelum diajukan.

Epoch AI melakukan pengujian buta, mencegah tim DeepMind melihat soal, dengan setiap pertanyaan diberi waktu 48 jam untuk komputasi. Dalam penerapan dunia nyata, matematikawan Marc Lackenby menggunakan sistem tersebut untuk menyelesaikan dugaan terbuka dari Kourovka Notebook, yang menunjukkan nilai riset praktisnya. Sistem ini saat ini tersedia untuk sejumlah matematikawan terbatas dalam uji beta.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar