Согласно OpenAI, компания выявила коренную причину «гоблинской» проблемы, которая преследовала модели GPT начиная с GPT-5.1. Сигнал вознаграждения, использовавшийся для усиления черты характера «Nerdy», поощрял выводы с упоминаниями фантастических существ: 76,2% обучающего набора данных демонстрировали эту предвзятость. При этом личность «Nerdy» составляла лишь 2,5% ответов ChatGPT, но при этом обеспечивала 66,7% упоминаний гоблинов, причем число таких упоминаний выросло на 3 881% с GPT-5.2 до GPT-5.4.
OpenAI убрала личность «Nerdy» в марте, исключила предвзятый сигнал вознаграждения и отфильтровала данные обучения. Компания также добавила инструкции по подавлению в разработческие подсказки GPT-5.5 в Codex. В ходе расследования были разработаны новые инструменты аудита поведения моделей.