PerplexityがWeb検索エージェントのポストトレーニング手法を公開;Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る

ニュース速報メッセージ:4月23日 — Perplexityの研究チームが、Web検索エージェント向けのポストトレーニング手法の詳細を説明する技術記事を公開しました。このアプローチは、2つのオープンソースのQwen3.5モデル (Qwen3.5-122B-A10B と Qwen3.5-397B-A17B) を使用し、2段階のパイプラインを採用します。すなわち、命令追従と言語の一貫性を確立するための教師あり微調整 (SFT) の後に、検索精度とツール使用の効率を最適化するためのオンライン強化学習 (RL) を行います。

RLフェーズでは、GRPOアルゴリズムを2つのデータソースとともに活用します。1つは、内部のシードクエリから構築された独自のマルチホップ検証可能な質問-回答データセットで、推論の2〜4ホップと、複数ソルバによる検証を必要とします。もう1つは、配備要件を客観的に検査可能な原子的条件へ変換してSFTの振る舞い劣化を防ぐ、ルーブリックに基づく汎用会話データです。

報酬設計では、ゲート付き集約を採用します——ベースラインの正しさが達成された場合にのみ、選好スコアが寄与します (question-answer match または すべてのルーブリック基準が満たされた場合)。これにより、高い選好信号が事実誤りを覆い隠すことを防ぎます。効率ペナルティは同一グループ内のアンカーリングを用い、同じグループにおける正答のベースラインを超えて、ツール呼び出しや生成長に対してなめらかなペナルティを適用します。

評価では、Qwen3.5-397B-SFT-RLが検索ベンチマーク全体で業界最高水準の性能を達成しています。FRAMESでは、単一ツール呼び出しで57.3%の精度を実現し、GPT-5.4を5.7パーセントポイント上回ります。また、Claude Sonnet 4.6を4.7パーセントポイント上回ります。中程度の予算 (4回のツール呼び出し) では、1クエリあたり$0.02で73.9%の精度を達成し、GPT-5.4の1クエリあたり$0.085での67.8%の精度、Sonnet 4.6の1クエリあたり$0.153での62.4%の精度と比較しています。コスト数値は各提供元の公開API料金に基づき、キャッシュの最適化は除外されています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし