وبحسب OpenAI، حدّدت الشركة السبب الجذري لمشكلة «العفريت» التي ابتليت بها نماذج GPT بدءاً من GPT-5.1. كانت إشارة مكافأة استُخدمت لتعزيز سمة شخصية «المنكّب على المعرفة» (Nerdy) تشجع المخرجات التي تتضمن إشارات إلى مخلوقات خيالية، حيث أظهر 76.2% من مجموعة التدريب هذا الانحياز. وقد شكّلت شخصية «Nerdy» نسبة 2.5% فقط من ردود ChatGPT، لكنها ساهمت بنسبة 66.7% من الإشارات إلى goblin، مع ارتفاع الوقوعات بنسبة 3,881% من GPT-5.2 إلى GPT-5.4.
أزالت OpenAI شخصية «Nerdy» في مارس، وألغت إشارة المكافأة المتحيزة، وفلترت بيانات التدريب. كما أضافت الشركة تعليمات كبح إلى مطالب المطور (developer prompts) في GPT-5.5 داخل Codex. وقد قادت التحقيقات إلى تطوير أدوات جديدة لمراجعة سلوك النماذج.