根據 OpenAI 於 5 月 6 日的公告,該公司與 AMD、Broadcom、Intel、Microsoft 以及 NVIDIA 合作,推出 Multipath Reliable Connection(MRC),一種用於大規模 AI 訓練叢集 GPU 互連的開放式網路通訊協定。該協定將單次資料傳輸拆分到數百條路徑上,以降低核心層級的擁塞,並讓鏈路與交換器失效能以微秒等級繞過。
OpenAI 已在其 Stargate 超級電腦(使用 OCI 建置)以及 Microsoft 的 Fairwater 超級電腦中部署了 MRC,得以僅透過兩層交換器連接超過 100,000 顆 GPU,同時降低耗電量與硬體需求。MRC 規格已透過 Open Compute Project 向產業釋出。