V4-Pro Mencapai Tingkat Lolos Kode 67% dalam Uji Dogfooding Internal, Mendekati Performa Opus 4.5

Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk PyTorch, CUDA, Rust, dan C++. Setelah penyaringan yang ketat, 30 tugas dipertahankan untuk evaluasi benchmark.

V4-Pro-Max mencapai tingkat lolos kode 67%, secara signifikan mengungguli Sonnet 4.5 pada 47% dan mendekati Opus 4.5 pada 70%. Namun, ia tertinggal dari Opus 4.5 Thinking (73%) dan Opus 4.6 Thinking (80%), sementara secara substansial melampaui Haiku 4.5 pada 13%.

Dalam survei internal dengan 85 responden, semua peserta melaporkan menggunakan V4-Pro untuk pengkodean agenik dalam alur kerja harian. 52% menyetujui V4-Pro sebagai model utama default mereka, 39% cenderung menyetujui, dan kurang dari 9% menyatakan ketidaksetujuan. Masalah yang dilaporkan termasuk error tingkat rendah, salah menafsirkan prompt yang ambigu, dan sesekali perilaku terlalu memikirkan.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar