Разбор Berkeley GEPA: ИИ может научиться новым задачам без обновления весов, при этом затраты на обучение в 35 раз ниже, чем у RL

Исследовательская группа из Калифорнийского университета в Беркли представила новый подход к обучению ИИ — GEPA. Он уже принят ICLR 2026 как доклад Oral. GEPA не обновляет веса модели, не требует GPU-обучения: достаточно одного LLM, который многократно переписывает подсказки для AI-системы, используя «чтение обучающих записей». В итоге на 6 задачах в среднем результат лучше, чем у основных методов обучения с подкреплением GRPO, на 6%, с максимальным превосходством 20%, а число необходимых обучающих попыток (rollouts) меньше в 35 раз. После того как исследование AI-инженерное сообщество распространило и обсудило в X, сейчас GEPA уже интегрирован в DSPy как оптимизатор первого класса.

Что делает GEPA: рассматривает обучающие записи как учебный материал, а не только как оценку

Традиционный процесс обучения с подкреплением (например, GRPO) выглядит так: ИИ один раз выполняет задачу, по результату получает «+1 или -1», после чего эта оценка снова и снова используется для корректировки весов модели. Проблема в том, что выполнение задачи обычно включает тысячи токенов рассуждений, вызовы инструментов и сообщения об ошибках — все эти богатые детали сжимаются до одного числа, а информация о ходе процесса теряется. Поэтому RL приходится запускать десятки тысяч раз, чтобы добиться сходимости.

GEPA поступает наоборот: после того как ИИ завершает задачу, всю последовательность действий (reasoning, вызовы инструментов, записи ошибок) целиком передают другому «LLM для рефлексии», который читает процесс. LLM для рефлексии — как опытный инженер, который читает log с запусков: он находит, на каком шаге произошла ошибка, почему она произошла, и как нужно изменить подсказку, после чего напрямую переписывает подсказку для соответствующего модуля. По сути, при том же одном запуске задачи GEPA извлекает из него существенно больше сигнала, чем RL извлекает из единственной оценки.

Почему это работает: вместо «оценки» — «чтение всего процесса»

GEPA на 6 задачах в среднем обходит GRPO на 6%, а максимум — на 20%; также он опережает другой популярный оптимизатор подсказок MIPROv2 более чем на 10% (на математическом бенчмарке AIME-2025 рост на 12%). Самое важное — стоимость обучения: чтобы достичь сопоставимой производительности, GEPA нужен rollouts (один полный запуск задачи) в 35 раз меньше.

Еще один показатель: после интеграции GEPA с DSPy «Full Program Adapter» позволяет оптимизировать всю программу в DSPy (включая signature, модули и управляющий поток). На математическом бенчмарке MATH точность достигает 93%, что намного выше исходного способа ChainOfThought в DSPy (67%). GEPA также особенно хорошо проявляет себя в multi-module рабочих процессах (AI-агенты с несколькими модулями, соединенными последовательно): он позволяет точно локализовать конкретный модуль, в котором произошла ошибка, и переписать подсказку именно для него, вместо того чтобы настраивать весь систему целиком.

Кто первым начнёт использовать: DSPy — гражданин первого класса, GitHub уже открыто

Код GEPA опубликован на GitHub; он интегрирован в DSPy в виде dspy.GEPA и также отдельно выпущен как Python-библиотека. В исследовательской группе задействованы организации уровня UC Berkeley, Stanford, Notre Dame, Anthropic и др.; среди авторов статьи: Matei Zaharia (сооснователь Databricks, один из ключевых авторов DSPy) и Omar Khattab (главный автор DSPy).

Для разработческого сообщества GEPA предлагает новое решение для ситуации «у нас много rollout, но мы не знаем, как их использовать»: многие команды уже накопили тысячи и тысячи записей о запуске задач агентами, но кроме ручной проверки пары эпизодов при баге, у них нет системного способа превращать эти записи в улучшение модели. Следующий вопрос — как GEPA проявит себя в реальных внедрениях корпоративных agentic рабочих процессов (например, автоматизация клиентской поддержки, автоматическое исправление кода), и появятся ли совместимые реализации GEPA вне фреймворка DSPy.

Эта статья «Berkeley GEPA разбор»: «не обновляя веса, можно научить ИИ новым задачам — с 35-кратным сокращением расходов на обучение, победив RL» впервые появилась в ленте новостей ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Particle Network публикует дорожную карту универсальных аккаунтов, запускает Universal Deposit SDK и аккаунты AI Agent

Согласно ChainCatcher, Particle Network сегодня выпустила следующий этап дорожной карты Universal Accounts, представив два новых продукта в ближайшие месяцы: Universal Deposit SDK, позволяющий разработчикам добавлять мультицепочечные депозиты примерно с 10 строками кода, и Universal Agent Accounts,

GateNews12ч назад

Выручка Riot Platforms в 1 квартале 2026 года растёт до 167,2 млн долларов на фоне запуска дата-центра

Bitcoin miner Riot Platforms сообщил о total квартальной выручке в размере $167,2 million в I квартале 2026 года — это выше $161,4 million за тот же период 2025 года, поскольку компания получила $33,2 million от работы недавно запущенных дата-центров, обслуживающих размещение AI-инфраструктуры. Достигнутый рубеж побудил CEO Джейсона Леса

CryptoFrontier13ч назад

Roblox запускает ПО на базе ИИ, чтобы бросить вызов Unity и Epic Games

По данным Bloomberg, Roblox запускает новое ПО на основе ИИ, чтобы конкурировать с Unity Technologies и Epic Games, чьи движки доминируют в разработке игр с большими бюджетами. Генеральный директор Дэйв Баззукки заявил, что инструмент нацелен на то, чтобы помочь создателям проще создавать многопользовательские игры с фотореалистичной графикой, благодаря ar

GateNews17ч назад

ВМС США заключают контракт с Domino Data Lab почти на 100 миллионов долларов на использование ИИ для обнаружения мин в проливе Ормуз

Согласно Xinhua News Agency, недавно командование ВМС США по системам информационной войны подписало контракт с базирующейся в Сан-Франциско компанией Domino Data Lab, занимающейся ИИ, чтобы закупить и развернуть программные решения на основе машинного обучения. Контракт, оцениваемый почти в $100 миллионов при полном исполнении, направлен на

GateNews19ч назад

XAI Grok представляет Custom Voices: клонирование за 2 минуты, двухэтапная проверка личности

xAI представила Grok Custom Voices: через консоль записывается примерно 1 минуту аудио, в течение 2 минут создаётся готовая для TTS и Voice Agent API модель кастомного голоса, а также одновременно были выпущены Grok 4.3 и Voice Library. Для предотвращения клонирования используется двухэтапная проверка: сначала чтение проверочного предложения, затем сравнение speaker embedding, чтобы сгенерировать голос мог только один и тот же человек. Voice Library объединяет управление собственными и заранее подготовленными голосами: 80+ видов, 28 языков; в дальнейшем планируется расширение.

ChainNewsAbmedia20ч назад

Настольная версия OpenAI Codex получает функцию с «питомцем»: 3 подсказки статуса, вывод по языку использования

Настольная версия OpenAI Codex недавно добавила функцию «Питомцы» (Pets), позволяющую разработчикам во время кодинга в реальном времени отслеживать статус задач Codex через всплывающих анимированных персонажей. Согласно официальной документации OpenAI, оверлей с питомцами будет переключаться в зависимости от текущего состояния Codex на 3

ChainNewsAbmedia22ч назад
комментарий
0/400
Нет комментариев