Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm PyTorch, CUDA, Rust và C++. Sau khi lọc nghiêm ngặt, 30 tác vụ đã được giữ lại để đánh giá theo chuẩn.
V4-Pro-Max đạt tỷ lệ vượt kiểm tra viết mã 67%, vượt trội đáng kể so với Sonnet 4.5 ở mức 47% và tiệm cận Opus 4.5 ở mức 70%. Tuy nhiên, nó thấp hơn Opus 4.5 Thinking (73%) và Opus 4.6 Thinking (80%), trong khi vượt trội rõ rệt so với Haiku 4.5 ở mức 13%.
Trong một khảo sát nội bộ với 85 người tham gia, tất cả đều cho biết họ sử dụng V4-Pro để lập trình mã hoá tác nhân (agentic coding) trong các quy trình làm việc hằng ngày. 52% ủng hộ V4-Pro như mô hình lập trình mã hoá chính mặc định của họ, 39% nghiêng về việc chấp thuận, và dưới 9% bày tỏ không đồng ý. Các vấn đề được báo cáo bao gồm lỗi cấp thấp, hiểu nhầm các lời nhắc mơ hồ và đôi khi có hành vi suy nghĩ quá mức.