Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая PyTorch, CUDA, Rust и C++. После тщательной фильтрации для оценки бенчмарка было сохранено 30 задач.
V4-Pro-Max достиг 67% процента успешного прохождения кода, существенно превзойдя Sonnet 4.5 с 47% и приблизившись к Opus 4.5 с 70%. Однако он уступает Opus 4.5 Thinking (73%) и Opus 4.6 Thinking (80%), при этом значительно опережая Haiku 4.5 на 13%.
Во внутреннем опросе с 85 респондентами все участники сообщили, что используют V4-Pro для агентного кодинга в ежедневных рабочих процессах. 52% поддержали V4-Pro как свою модель первичного кодинга по умолчанию, 39% склонялись к одобрению, и менее 9% выразили неодобрение. Сообщенные проблемы включали низкоуровневые ошибки, неверное толкование неоднозначных запросов и иногда чрезмерное обдумывание поведения.