5月6日のOpenAIの発表によると、同社はAMD、Broadcom、Intel、Microsoft、NVIDIAと提携し、大規模なAI学習クラスターのGPU間接続のためのオープンなネットワークプロトコルであるMultipath Reliable Connection(MRC)を立ち上げました。このプロトコルは、単一のデータ送信を数百の経路に分割してコアの輻輳(ふくそう)を抑え、リンクおよびスイッチの障害をマイクロ秒レベルで回避できるようにします。
OpenAIはすでに、Stargateスーパコンピューター(OCIで構築)およびMicrosoftのFairwaterスーパコンピューターにMRCを導入しており、スイッチ層を2層だけで100,000台超のGPUを接続できるほか、電力消費と必要なハードウェア要件を削減しています。MRCの仕様はOpen Compute Projectを通じて業界に公開されました。