Menurut OpenAI, perusahaan itu mengidentifikasi akar masalah “goblin” yang menghantui model GPT mulai dari GPT-5.1 dan seterusnya. Sinyal imbalan yang digunakan untuk memperkuat sifat kepribadian “Nerdy” mendorong keluaran yang berisi rujukan makhluk fantasi, dengan 76,2% dari kumpulan data pelatihan menunjukkan bias ini. Kepribadian Nerdy hanya menyumbang 2,5% dari respons ChatGPT, tetapi berkontribusi 66,7% terhadap penyebutan goblin, dengan kemunculannya melonjak 3.881% dari GPT-5.2 ke GPT-5.4.
OpenAI menghapus kepribadian Nerdy pada bulan Maret, menghilangkan sinyal imbalan yang bias, dan menyaring data pelatihan. Perusahaan itu juga menambahkan instruksi penekanan ke prompt pengembang GPT-5.5 di Codex. Investigasi tersebut menghasilkan pengembangan alat audit perilaku model baru.