تتبع OpenAI مشكلة “العفريت” إلى إشارة مكافأة سلوكية لشخصية “محبّة للدراسة” و”المهووسة”، وارتفاع ذكر “العفريت” بنسبة 175% في GPT-5.1

وبحسب OpenAI، حدّدت الشركة السبب الجذري لمشكلة «العفريت» التي ابتليت بها نماذج GPT بدءاً من GPT-5.1. كانت إشارة مكافأة استُخدمت لتعزيز سمة شخصية «المنكّب على المعرفة» (Nerdy) تشجع المخرجات التي تتضمن إشارات إلى مخلوقات خيالية، حيث أظهر 76.2% من مجموعة التدريب هذا الانحياز. وقد شكّلت شخصية «Nerdy» نسبة 2.5% فقط من ردود ChatGPT، لكنها ساهمت بنسبة 66.7% من الإشارات إلى goblin، مع ارتفاع الوقوعات بنسبة 3,881% من GPT-5.2 إلى GPT-5.4.

أزالت OpenAI شخصية «Nerdy» في مارس، وألغت إشارة المكافأة المتحيزة، وفلترت بيانات التدريب. كما أضافت الشركة تعليمات كبح إلى مطالب المطور (developer prompts) في GPT-5.5 داخل Codex. وقد قادت التحقيقات إلى تطوير أدوات جديدة لمراجعة سلوك النماذج.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات