Згідно з OpenAI, компанія визначила першопричину проблеми «goblin», яка переслідувала моделі GPT починаючи з GPT-5.1. Сигнал винагороди, який використовували для підкріплення риси характеру «Nerdy», заохочував виходи з посиланнями на фантастичних істот, причому 76,2% навчального датасету демонстрували цей ухил. Риса характеру Nerdy становила лише 2,5% відповідей ChatGPT, але спричинила 66,7% згадок про goblin; при цьому кількість згадок зросла на 3 881% з GPT-5.2 до GPT-5.4.
У березні OpenAI прибрала персональність Nerdy, усунула упереджений сигнал винагороди та відфільтрувала навчальні дані. Компанія також додала інструкції із подавлення в developer prompts для GPT-5.5 у Codex. Розслідування призвело до розробки нових інструментів аудиту поведінки моделей.