De acuerdo con el anuncio de OpenAI del 6 de mayo, la empresa se asoció con AMD, Broadcom, Intel, Microsoft y NVIDIA para lanzar Multipath Reliable Connection (MRC), un protocolo de red abierto para la interconexión de GPU en clústeres de entrenamiento de IA a gran escala. El protocolo divide una sola transmisión de datos en cientos de rutas para reducir la congestión del núcleo y permite un desvío a nivel de microsegundos ante fallas de enlaces y conmutadores.
OpenAI ya implementó MRC en su supercomputadora Stargate (construida con OCI) y en la supercomputadora Fairwater de Microsoft, lo que permite conectar más de 100.000 GPUs con solo dos capas de conmutadores, a la vez que reduce el consumo de energía y los requisitos de hardware. La especificación de MRC se ha publicado para la industria a través de Open Compute Project.