De acordo com a OpenAI, a empresa identificou a causa raiz do problema do “goblin” que assolou os modelos GPT a partir do GPT-5.1. Um sinal de recompensa usado para reforçar a característica de personalidade “Nerdy” incentivava a produção de resultados com referências a criaturas de fantasia, com 76,2% do conjunto de treino a evidenciar este viés. A personalidade Nerdy representava apenas 2,5% das respostas do ChatGPT, mas contribuiu com 66,7% das menções a goblins, com ocorrências a disparar 3.881% de GPT-5.2 para GPT-5.4.
A OpenAI removeu a personalidade Nerdy em março, eliminou o sinal de recompensa enviesado e filtrou os dados de treino. A empresa também adicionou instruções de supressão aos prompts de developer do GPT-5.5 no Codex. A investigação levou ao desenvolvimento de novas ferramentas de auditoria do comportamento dos modelos.