V4-Pro Đạt Tỷ Lệ Vượt Kiểm Tra Viết Mã 67% Trong Bài Test Tự Dùng Nội Bộ, Tiệm Cận Hiệu Năng của Opus 4.5

Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm PyTorch, CUDA, Rust và C++. Sau khi lọc nghiêm ngặt, 30 tác vụ đã được giữ lại để đánh giá theo chuẩn.

V4-Pro-Max đạt tỷ lệ vượt kiểm tra viết mã 67%, vượt trội đáng kể so với Sonnet 4.5 ở mức 47% và tiệm cận Opus 4.5 ở mức 70%. Tuy nhiên, nó thấp hơn Opus 4.5 Thinking (73%) và Opus 4.6 Thinking (80%), trong khi vượt trội rõ rệt so với Haiku 4.5 ở mức 13%.

Trong một khảo sát nội bộ với 85 người tham gia, tất cả đều cho biết họ sử dụng V4-Pro để lập trình mã hoá tác nhân (agentic coding) trong các quy trình làm việc hằng ngày. 52% ủng hộ V4-Pro như mô hình lập trình mã hoá chính mặc định của họ, 39% nghiêng về việc chấp thuận, và dưới 9% bày tỏ không đồng ý. Các vấn đề được báo cáo bao gồm lỗi cấp thấp, hiểu nhầm các lời nhắc mơ hồ và đôi khi có hành vi suy nghĩ quá mức.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận