北京志遠大會で業界のリーダーたちは、AIモデルの均質化への懸念について議論し、主要モデルの評価成績がますます収束していること、またオープンソース・モデルとクローズドソース・モデルの差は「わずか3〜6か月」程度だと考えられている。Bluerun VenturesのManaging PartnerであるChen Weiguang、Zhiyuan Research InstituteのDirectorであるWang Zhongyuan、Galaxy GeneralのFounder兼CTOであるWang He、そしてMiniMaxのCEOであるLi Dahaiは、大モデル時代における長期的な価値の源泉について話し合った。パネルは、AIモデルおよび身体性(embodied intelligence)産業が均質化へ向かっているのか、そして持続する競争優位はどこに存在するのかを取り上げた。業界の観測者は、米中のAI競争において才能が鍵だと見ており、身体性は中国がAlphaGoやChatGPTに匹敵するブレークスルーの瞬間を実現するチャンスだと位置づけている。
Wang Zhongyuanは、さまざまな大モデルのリーダーボードが目まぐるしい一方で、順位そのものは必ずしも完全に信頼できないが、生デモを敢えて行い、実世界のシナリオに投入するモデル企業は自信を示しており、現実の場面でデータのクローズドループを見つけられると述べた。彼は、大局的な大モデル性能の反復はまだボトルネックに到達しておらず、技術ルートは収束しておらず、将来は「複数の強者を従えた一つの超強者」や「複数の巨人が並び立つ」といった、複数のパターンが現れる可能性があるとした。そして、業界が均質化へ向かうという主張は時期尚早だと特徴づけた。
Galaxy GeneralのFounderであるWang Heは、大規模言語モデルから身体性へと議論を広げた。彼は、大規模言語モデル自体にもまだ多くの変数があり、多モーダルや動画理解の能力では不確実性がより大きいと述べた。Wangは、身体性を現在「GPT-1からGPT-2への段階」にあると特徴づけ、業界がようやく加速期間に入ったところだと言った。
Wang Heは、身体性の競争上の「堀」を、ソースデータの供給(合成データ、人データ、ロボットデータ)、データの精錬能力、ハードウェアの反復とソフト・ハードの共同設計、モデルのスループット統合能力、そして最終的なハードウェア提供能力を含む“完全なシステム”として説明した。彼はこれを「ヘキサゴナル・ウォリアー(六角形の戦士)」の包括的システムだと特徴づけ、この種の成熟した製品は世界中に存在せず、堀は依然として極めて深いとした。
MiniMaxのCEOであるLi Dahaiは、Anthropicの商業的成功を、均質化に反する直接的な証拠として挙げた。彼は、大規模モデルは単に「T字型人材」であって、一般的な水平能力だけでは足りず、垂直方向の強みが必要だと述べた。Liは、Anthropicが自社の一般モデルの土台の上に、類を見ないレベルまでコーディング能力を構築したため、それが世界的な現象になったのだと説明し、高いバリュエーションと印象的な商業パフォーマンスを支えたとした。
Liは、大規模モデルは孤立した技術ポイントではなく、システム進化の中に取り込まれていくと述べた。彼は、将来のモデル最適化はアプリケーションのシナリオと深く連動しなければならないとし、全体の車と連動が必要なエンジン設計に例えた。F1レーシングカーと買い物(食料品)カーでは、最適化の方向がまったく異なるという。Liは、技術的な汎用性と商業的な汎用性は分けるべきであり、良い商業化には極めてシナリオ特化したモデル最適化が必要で、それによって各社が適切な方向性を見つけることで独自の堀を築けると述べた。
Wang Heは、Galaxy GeneralがWAM(World Action Model)というパラダイムで取り組んでいる実践を共有した。WAMパラダイムが登場する前、Galaxy Generalは把握スキルのスケーリング可能性を検証するために、1 billionフレームのシミュレーションデータを使用していた。同社は、任意の対象物に対するゼロショット把握を実現するためにGRASP-VLAを開発し、現時点まで、実際の遠隔操作データに依存することで同等の性能に到達したモデルはないとしている。
Wangは、WAMパラダイムの登場が、身体性におけるデータのボトルネックを完全に打ち破ったと説明した。従来のVLAモデルはアクションラベル付きのデータを必要とし、ロボットデータにしか頼れない。WAMはアクションをコアとして捉え、アクションラベルを必要とせず、未来予測によって視覚レベルの行動計画を実行する。つまり、ロボットが人間の動画から行動ロジックを直接学習でき、大量の人間の動画データがトレーニング素材になるということだ。
Wangは、Galaxy Generalが2025年3月に世界初のWAM論文を公開し、さらに2025年4月にはNVIDIAのEmbodied Intelligence Lab DirectorであるJim Fanが、ロボットのエンドゲームはWAMだと述べたとした。Wangは、身体性の事前学習(pre-training)がデータ取得に制限がないことで爆発的な期間に入ったと特徴づけた。彼は今後2年間で、身体性は完全にGPT-3.5の瞬間を迎えるとし、入場券(entry ticket)となるのは、数千万時間の高品質データと数十億規模の資本投資だと述べた。
Wang Zhongyuanは、昨年の業界におけるScaling Lawの失敗に関する議論が、「インターネットの事前学習データが尽きてしまった」という不安に由来していたことを明らかにした。過去2年間で、事後学習、推論最適化、そしてエージェントの再帰的な自己進化によって、新たな能力向上の波がもたらされた。Wangは、これはモデル自体のパラメータが必ずしも増えることを意味するわけではなく、むしろシステム全体がますます能力を備えていくことで、AIがチャットツールから実行ツールへと変わっていくのだと述べた。
研究機関として、Zhiyuanは次の知能成長のカーブを探っている。過去2年間で、同機関はマルチモーダル分野においてスケーリング・パラダイムを検証し、Wujie Emu3シリーズはマルチモーダルデータの1%未満を使いながらも、数千億のパラメータで、すでに明確な性能向上が示されているという。同機関は現在、物理世界に向けた世界基盤モデルへ向けて前進し、世界モデルのためのスケーリング経路を探り始めている。
Li DahaiはMiniMaxの「知識密度法則」を提案した。すなわち、全体の大規模モデルの知能=知識密度×パラメータ数である。彼は、昨年自動車企業向けにエッジモデルを展開した際には、達成できたのは1Bパラメータにとどまっていたが、今年は4Bへアップグレードし、来年はおそらく数十億に到達するだろうと明かした。量子化技術が改善し知識密度が高まれば、量子化後のより強いモデルは以前と同じリソースを占有し、エッジモデルのスケール拡大は始まったばかりだという。
Liは、業界における多くの段階的結論は賞味期限が非常に短く、開発が絶えず古い認識を覆していると述べた。彼は、エッジモデルには成長の余地が大きいだけでなく、大規模言語モデルの長い文脈処理や低電力最適化にも、まだ十分に探索されていないスケーリングの可能性があるため、業界はまだ収束段階に到達していないとした。
Wang Zhongyuanは、AI技術の開発は自動運転と同じ道筋をたどり、必ず「不安や恐れ」から「適応と利用」へ、さらに「完全なガバナンスシステムの構築」と「責任配分の仕組み」へ進むプロセスを経験すると述べた。技術が3〜5倍の生産性向上をもたらせるなら、その普及は阻めない。そして、人類は複数回の技術波を経験してきたため、対応するガバナンスの解決策も見つけられるはずだ。
Li Dahaiは、人間社会は本質的に「失敗から学ぶ」ことで発展してきた—飛行機の安全ルールや道路の速度制限には、それぞれ苦い教訓が背後にあると述べた。AI技術は脆弱性の発見と問題の修正の効率を改善し、このコストを大幅に下げる一方、スタートアップ段階から安全性のベースラインを重視し、企業が社会的責任を主体的に引き受けることが業界で強く求められているという。Liは、「失敗から学ぶ」パターンは完全に回避するのが難しいかもしれず、安全リスクはしばしば予期しない次元から現れるため、教訓によるルール改善が直面すべき現実になると述べた。
AIにおける中国の差別化優位については、Wang Zhongyuanは、中国のサプライチェーン、製造上の優位、そして広大な国内市場が、新技術の実装を育成し触媒するのに十分であり、身体性と世界モデルは中国が差別化されたリーダーシップを達成しやすい領域になり得ると述べた。
Wang Heは、身体性こそが中国のチャンスだと強く述べた。彼は、身体性の「AlphaGoの瞬間」や「ChatGPTの瞬間」は中国でどちらも実現されるという確信を示し、ゼロからワンが中国で完了すれば、ワンから百も必ず中国で成熟する、と語った。
Li Dahaiは、最も核心となる根本要因として付け加えた。中国には世界で最も多くの、賢い若手AI人材がいる—それが最大の基本的な優位だということだ。サプライチェーン、エコシステム、シナリオの優位性と合わせれば、中国はAI分野で必ず大きな進展を遂げるはずだ。
Galaxy Generalは、身体性はどの段階に到達していると言ったのか?
Galaxy GeneralのFounder兼CTOであるWang Heは、北京志遠大會で、身体性は現在「GPT-1からGPT-2までの段階」にあり、業界はちょうど加速期間に入ったところだと述べた。彼は今後2年間で、身体性は完全にGPT-3.5の瞬間を迎え、入場券となるのは数千万時間の高品質データと数十億規模の資本投資だとした。
パネル参加者はAIモデルの均質化への懸念にどう反応したのか?
Zhiyuan Research InstituteのDirectorであるWang Zhongyuanは、全体としての大規模モデルの性能反復はまだボトルネックに達しておらず、技術ルートは収束しておらず、均質化の主張を時期尚早だと特徴づけたと述べた。MiniMaxのCEOであるLi Dahaiは、コーディング能力におけるAnthropicの成功を、企業が垂直方向の強みを通じて差別化を構築できる証拠として挙げた。Galaxy GeneralのWang Heは、身体性の競争上の堀を、データ供給、ハードウェア反復、そしてモデルの能力を含む完全なシステムとして説明し、この種の成熟した製品は世界中に存在しないとした。
パネルは、中国のAI開発にどんな利点を挙げたのか?
パネル参加者は複数の中国の優位性を挙げた。Wang Zhongyuanは、中国のサプライチェーン、製造上の優位、そして広大な国内市場が、新技術の実装を触媒するのに十分だとした。Li Dahaiは、中国には世界で最も多くの賢い若手AI人材がいることを最大の基本的優位と述べた。Wang Heは、AlphaGoやChatGPTに匹敵する身体性のブレークスルーの瞬間は中国で実現されるという確信を示し、ゼロからワンが中国で完了すれば、ワンから百も必ず中国で成熟する、と述べた。
関連ニュース
ダン・アイヴス氏、SpaceXとテスラの合併は1年以内に実現しそうだと語る
MicrosoftのCEOナデラが、人材資本とトークン資本のAIフレームワークを提案
ミニマックスCEO:エッジモデルのインテリジェンスはGPT-4に匹敵、エージェント技術には時間が必要
マイクロソフトの最高経営責任者(CEO):AIの護城河は学習のクローズド・ループであり、企業は学習を外注してはいけない
Raoul Pal:算力が資本に代わり、AIのボトルネックが暗号資金の循環を引き起こす「第3番目の波」