V4-Pro демонстрирует 67% процент успешного прохождения кода во внутреннем тесте догфудинга, приближаясь к производительности Opus 4.5

Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая PyTorch, CUDA, Rust и C++. После тщательной фильтрации для оценки бенчмарка было сохранено 30 задач.

V4-Pro-Max достиг 67% процента успешного прохождения кода, существенно превзойдя Sonnet 4.5 с 47% и приблизившись к Opus 4.5 с 70%. Однако он уступает Opus 4.5 Thinking (73%) и Opus 4.6 Thinking (80%), при этом значительно опережая Haiku 4.5 на 13%.

Во внутреннем опросе с 85 респондентами все участники сообщили, что используют V4-Pro для агентного кодинга в ежедневных рабочих процессах. 52% поддержали V4-Pro как свою модель первичного кодинга по умолчанию, 39% склонялись к одобрению, и менее 9% выразили неодобрение. Сообщенные проблемы включали низкоуровневые ошибки, неверное толкование неоднозначных запросов и иногда чрезмерное обдумывание поведения.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев