De acordo com a OpenAI, a empresa identificou a causa raiz do problema “goblin” que afetou modelos GPT a partir do GPT-5.1. Um sinal de recompensa usado para reforçar o traço de personalidade “Nerdy” incentivou respostas com referências a criaturas de fantasia, com 76,2% do conjunto de dados de treinamento exibindo esse viés. A personalidade Nerdy respondeu por apenas 2,5% das respostas do ChatGPT, mas contribuiu com 66,7% das menções a goblins, com as ocorrências disparando 3.881% de GPT-5.2 para GPT-5.4.
A OpenAI removeu a personalidade Nerdy em março, eliminou o sinal de recompensa tendencioso e filtrou os dados de treinamento. A empresa também adicionou instruções de supressão aos prompts de desenvolvedor do GPT-5.5 no Codex. A investigação levou ao desenvolvimento de novas ferramentas de auditoria do comportamento do modelo.