Theo OpenAI, công ty đã xác định nguyên nhân gốc rễ của “vấn đề goblin” đã ảnh hưởng đến các mô hình GPT từ GPT-5.1 trở đi. Tín hiệu phần thưởng được dùng để củng cố đặc điểm tính cách “Nerdy” đã khuyến khích các đầu ra có nhắc đến các sinh vật thuộc thế giới giả tưởng, trong đó 76,2% tập dữ liệu huấn luyện thể hiện sự thiên lệch này. Tính cách Nerdy chỉ chiếm 2,5% phản hồi của ChatGPT nhưng lại đóng góp 66,7% các lần nhắc tới “goblin”, và số lần xuất hiện đã tăng vọt 3.881% từ GPT-5.2 lên GPT-5.4.
OpenAI đã loại bỏ tính cách Nerdy vào tháng 3, loại bỏ tín hiệu phần thưởng gây thiên lệch và lọc dữ liệu huấn luyện. Công ty cũng bổ sung các chỉ dẫn ức chế vào prompt dành cho nhà phát triển của GPT-5.5 trong Codex. Cuộc điều tra đã dẫn đến việc phát triển các công cụ kiểm toán hành vi mới cho mô hình.