V4-Pro在内部自用(dogfooding)测试中实现67%的代码通过率,逼近Opus 4.5性能

Gate News 消息,4月24日——V4已公开披露其V4-Pro模型的内部自用(dogfooding)数据。该公司从50多名工程师处收集了约200项真实世界的工程任务,涵盖功能开发、缺陷修复、重构以及诊断,遍及包括 PyTorch、CUDA、Rust 和 C++ 等技术栈。经过严格筛选后,保留了30项任务用于基准评估。

V4-Pro-Max 的代码通过率为 67%,显著优于 Sonnet 4.5 的 47%,并接近 Opus 4.5 的 70%。不过,它落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%),同时也大幅高于 Haiku 4.5 的 13%。

在一项包含85名受访者的内部调查中,所有参与者均表示在日常工作流中使用 V4-Pro 进行“代理式编程(agentic coding)”。52% 将 V4-Pro 作为其默认的首要代码模型,39% 倾向于表示认可,而不足 9% 表达了不认可。报告的问题包括底层错误、对含糊提示的误解,以及偶发的过度思考行为。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات