De acordo com o anúncio da OpenAI de 6 de maio, a empresa fez parceria com a AMD, a Broadcom, a Intel, a Microsoft e a NVIDIA para lançar a Multipath Reliable Connection (MRC), um protocolo de rede aberto para interligação de GPUs em clusters de treino de IA em grande escala. O protocolo divide transmissões de dados únicas por centenas de vias para reduzir a congestão no núcleo e permite ultrapassagens a nível de microssegundos de falhas de ligações e switches.
A OpenAI já implementou a MRC no seu supercomputador Stargate (construído com OCI) e no supercomputador Fairwater da Microsoft, permitindo ligar mais de 100.000 GPUs com apenas duas camadas de switches, ao mesmo tempo que reduz o consumo de energia e as necessidades de hardware. A especificação da MRC foi disponibilizada à indústria através da Open Compute Project.