Según OpenAI, la empresa identificó la causa raíz del problema del “goblin” que afectó a los modelos GPT desde GPT-5.1 en adelante. Una señal de recompensa usada para reforzar el rasgo de personalidad “Nerdy” alentó salidas que incluían referencias a criaturas de fantasía, y el 76,2% del conjunto de datos de entrenamiento mostró este sesgo. La personalidad Nerdy representó solo el 2,5% de las respuestas de ChatGPT, pero contribuyó con el 66,7% de las menciones de goblin, con apariciones disparándose un 3.881% de GPT-5.2 a GPT-5.4.
OpenAI eliminó la personalidad Nerdy en marzo, eliminó la señal de recompensa sesgada y filtró los datos de entrenamiento. La empresa también añadió instrucciones de supresión a los prompts de desarrollador de GPT-5.5 en Codex. La investigación condujo al desarrollo de nuevas herramientas de auditoría del comportamiento de los modelos.