Google DeepMind выпустила ИИ со-математика — многoагентного исследовательского помощника по математике, достигнув 47,9% точности в бенчмарке FrontierMath Tier 4, превзойдя предыдущий рекорд GPT-5.5 Pro (39,6%) от 9 мая. Система решила 23 из 48 задач, включая 3, которые до этого не смогли решить ни одна из предыдущих моделей. Построенная на Gemini 3.1 Pro архитектура использует иерархический дизайн: агент-координатор проекта распределяет задачи между субагентами, отвечающими за извлечение литературы, кодирование и рассуждения; перед подачей несколько агентов-ревьюеров валидируют доказательства.

Epoch AI провела слепое тестирование, не позволяя команде DeepMind видеть задачи, при этом на каждый вопрос отводилось по 48 часов вычислений. В реальном применении математик Марк Лакенби использовал систему, чтобы разрешить открытую гипотезу из Kourovka Notebook, демонстрируя ее практическую исследовательскую ценность. Сейчас система доступна ограниченному числу математиков в рамках бета-тестирования.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-09 09:54

Система вознаграждений OpenAI непреднамеренно оценивает цепочки рассуждений на 6 моделях, включая GPT-5.4

05-09 05:53

Google потребует использовать ИИ на собеседованиях по коду и запустит найм с Gemini в конце этого года

05-09 05:53

Китайская China Mobile запускает платформу для моделей ИИ с 300+ интеграциями, снижает стоимость токенов на 30%

05-08 14:41

SwarmBase интегрирует AIDEN Agent от IQ AI 7 мая

05-08 06:52

GoldFinger и 4AI объявляют стратегическое партнёрство для объединения токенизированного золота с децентрализованным ИИ

Детальный анализ

Джефф Кауфман: ИИ одновременно разрушает две культуры уязвимостей в сфере кибербезопасности, а 90-дневный период запрета на поставки оборачивается обратным эффектом

ChainNewsAbmedia05-09 07:37

OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

ChainNewsAbmedia05-09 07:34

Киберзащитников вооружает GPT-5.5-Cyber от OpenAI

Cryptonews05-08 18:42

комментарий

0/400

Нет комментариев