バークレーGEPA解析:重みを更新しなくてもAIは新しいタスクを学習でき、訓練コストを35倍も削減してRLに勝つ

ChainNewsAbmedia

カリフォルニア大学バークレー校の研究チームが新しいAIトレーニング手法GEPAを提案し、ICLR 2026にOral論文として受理された。GEPAはモデルの重みを更新せず、GPUによる訓練も不要で、「学習ログを読み取る」LLMを使ってAIシステムのプロンプトを反復的に書き換えるだけで、6つのタスクにおいて平均的に主流の強化学習手法GRPOに対して6%上回り、最高で20%勝ち、必要な訓練試行回数(rollouts)も35倍少ない。研究がAIエンジニアリングコミュニティで拡散され、Xプラットフォーム上で議論を呼んだのち、現在はDSPyに統合されて一次最適化器(一等優化器)になっている。

GEPAは何をするのか:学習ログを教材として扱い、スコアだけを見ない

従来の強化学習手法(例:GRPO)のワークフローは次のとおりだ。AIに一度タスクを実行させ、その結果に基づいて「+1か-1」のスコアを与え、そのスコアを用いてモデルの重みを反復調整する。問題は、AIがこの一度のタスクを実行する過程には通常、数千tokenに及ぶ推論ステップ、ツール呼び出し、エラー情報が含まれていることだ。こうした豊富な詳細はすべて1つのスコアに圧縮され、過程の情報が捨てられる。だからこそ、RLは収束するまでに何万回もの試行が必要になる。

GEPAは逆だ。毎回AIがタスクを走り終えたら、その一連の過程(reasoning、ツール呼び出し、エラー記録)をそのまま別の「反省LLM」に読み込ませる。反省LLMは、熟練したエンジニアがプログラムのログを読むのと同じように、どのステップで失敗したのか、なぜ失敗したのか、そしてプロンプトをどう修正すべきかを見つけ、その後に該当モジュールのプロンプトを直接書き換える。同様に一度だけタスクを実行するが、GEPAがそこから抽出する信号量は、RLの単一スコアよりはるかに多い。

なぜ勝てるのか:「採点」を「一連の過程の読み取り」に変えるから

GEPAは6つのタスクで平均してGRPOに対し6%上回り、最高で20%勝つ。別の主流なプロンプト最適化器MIPROv2とも比較すると、10%以上上回っている(AIME-2025の数学問題ベンチマークで12%向上)。最も重要なのは訓練コストだ。GEPAは同等の性能に到達するために必要なrollouts(1回のタスク完全実行)が、35倍少ない。

もう一つのデータとして、GEPAがDSPyと統合された後の「Full Program Adapter」は、signature、モジュール、制御フローを含むDSPy全体のプログラムを最適化でき、MATHの数学ベンチマークで93%の精度を達成し、DSPy本来のChainOfThoughtの書き方の67%を大きく上回る。GEPAはmulti-moduleワークフロー(複数モジュールを直列に接続するAIエージェント)でも特に優れており、システム全体を調整するのではなく、特定の失敗しているモジュールをピンポイントで特定して、そのプロンプトを書き換えられる。

誰が最初に使うのか:DSPyの一等市民、GitHubでオープンソース

GEPAのコードはGitHubで公開されており、dspy.GEPAの形でDSPyフレームワークに統合されると同時に、Pythonライブラリとして独立して公開されている。研究チームはUC Berkeley、Stanford、Notre Dame、Anthropicなどの機関にまたがり、論文の著者にはMatei Zaharia(Databricks共同創業者、DSPyの主要著者)とOmar Khattab(DSPyの主要著者)が含まれる。

開発者コミュニティにとってGEPAは、「大量のrolloutはあるが、どう活用すればいいか分からない」という新しい解決策を提供する。多くのチームはすでに、エージェントがタスクを実行した記録を数千件〜数万件単位で蓄積しているが、失敗したときに数件をめくってバグを探す以外に、それらの記録をモデル改善に体系的に変換する方法がない。次の注目点は、GEPAが企業のエージェント型ワークフロー(例:カスタマーサポート自動化、プログラム自動修復)で実際に導入されるケースと、DSPy以外のフレームワークでのGEPAに対応する実装が現れるかどうかだ。

この記事「Berkeley GEPA解説:重みを更新しないのにAIが新しいタスクを学べ、35倍少ない訓練コストでRLに勝つ」が最初に現れたのは、鎖新聞のABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Particle Network、ユニバーサルアカウントのロードマップをリリースし、ユニバーサルデポジットSDKとAIエージェントアカウントを提供開始

ChainCatcherによると、Particle Networkは本日、Universal Accountsの次のフェーズのロードマップを公開し、今後数か月以内に2つの新製品を導入するとしています。Universal Deposit SDKは、開発者が約10行のコードでマルチチェーンの入金を追加できるようにするもので、そしてUniversal Agent Accounts、

GateNews3時間前

RobloxがAIソフトウェアをローンチし、UnityとEpic Gamesに挑戦

Bloombergによると、RobloxはUnity TechnologiesやEpic Gamesと競合するための新しいAIソフトウェアを発表している。これらの企業のエンジンは、大規模予算のゲーム開発を支配している。CEOのデイブ・バズキ(Dave Baszucki)は、このツールが、ARによって駆動され、フォトリアルなグラフィックスをより簡単に用いてマルチプレイヤーゲームを作れるようにすることを目的としていると述べた。

GateNews8時間前

米海軍がホルムズ海峡での機雷探知のためにDomino Data Labと約1億ドル(約1億米ドル)のAI契約を締結

新華社によると、米海軍の情報戦システム司令部は最近、サンフランシスコを拠点とするAI企業Domino Data Labと契約を締結し、機械学習ソフトウェアのソリューションを調達して導入することになった。この契約は、完全に実行されれば約1億ドル($100 million)に達する規模で、狙いは以下の通りだ。

GateNews10時間前

XAI Grok 推進のカスタムボイス:2分間クローン、二段階の身分確認

xAI が Grok Custom Voices を提供開始。コンソールで約1分間の音声を録音し、2分以内に TTS および Voice Agent API で利用できるカスタム音声モデルを生成します。同時に Grok 4.3 と Voice Library も公開。なりすまし防止のため、二段階の認証を採用します。まず検証文を朗読し、次に speaker embedding を照合して、同一人物のみが生成できるようにします。Voice Library は、自作および事前構築済みの音声を統合して管理し、80種類以上・28言語を提供。今後さらに拡充予定です。

ChainNewsAbmedia12時間前

OpenAI Codex デスクトップ版にペット機能を追加:3つの状態表示、使用言語に応じて孵化

OpenAI Codex のデスクトップ版が最近公開した「ペット」(Pets)機能により、開発者はコーディング中にホバーで表示されるアニメーションキャラクターを通じて、Codex のタスク状況をリアルタイムで把握できます。OpenAI公式ドキュメントによれば、ペットのオーバーレイは Codex の現在の状態に応じて 3

ChainNewsAbmedia13時間前

MoonPayがAIエージェント向けの仮想マスターカード「MoonAgentsカード」を金曜日に提供開始

The Blockによると、MoonPayは金曜日に、仮想マスターカードデビットカードであるMoonAgents Cardをローンチしました。このカードはAIエージェントとユーザーの両方向けに設計されており、決済時点でステーブルコインを法定通貨に換金し、マスターカードを受け付ける世界中のオンライン加盟店での支払いを可能にします。 The card i

GateNews23時間前
コメント
0/400
コメントなし