Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk PyTorch, CUDA, Rust, dan C++. Setelah penyaringan yang ketat, 30 tugas dipertahankan untuk evaluasi benchmark.
V4-Pro-Max mencapai tingkat lolos kode 67%, secara signifikan mengungguli Sonnet 4.5 pada 47% dan mendekati Opus 4.5 pada 70%. Namun, ia tertinggal dari Opus 4.5 Thinking (73%) dan Opus 4.6 Thinking (80%), sementara secara substansial melampaui Haiku 4.5 pada 13%.
Dalam survei internal dengan 85 responden, semua peserta melaporkan menggunakan V4-Pro untuk pengkodean agenik dalam alur kerja harian. 52% menyetujui V4-Pro sebagai model utama default mereka, 39% cenderung menyetujui, dan kurang dari 9% menyatakan ketidaksetujuan. Masalah yang dilaporkan termasuk error tingkat rendah, salah menafsirkan prompt yang ambigu, dan sesekali perilaku terlalu memikirkan.