De acordo com o anúncio da OpenAI em 6 de maio, a empresa fez parceria com AMD, Broadcom, Intel, Microsoft e NVIDIA para lançar a Multipath Reliable Connection (MRC), um protocolo de rede aberto para interconexão de GPUs em clusters de treinamento de IA em grande escala. O protocolo divide transmissões de dados únicas em centenas de rotas para reduzir a congestão no núcleo e permite desvio em nível de microssegundos de falhas de links e switches.
A OpenAI já implantou o MRC em seu supercomputador Stargate (construído com OCI) e no supercomputador Fairwater da Microsoft, permitindo a conexão de mais de 100.000 GPUs com apenas duas camadas de switches, ao mesmo tempo em que reduz o consumo de energia e os requisitos de hardware. A especificação do MRC foi disponibilizada para a indústria por meio do Open Compute Project.