تتبع OpenAI مشكلة “العفريت” إلى إشارة مكافأة سلوكية لشخصية “محبّة للدراسة” و”المهووسة”، وارتفاع ذكر “العفريت” بنسبة 175% في GPT-5.1

2026-04-30 04:01:34

وبحسب OpenAI، حدّدت الشركة السبب الجذري لمشكلة «العفريت» التي ابتليت بها نماذج GPT بدءاً من GPT-5.1. كانت إشارة مكافأة استُخدمت لتعزيز سمة شخصية «المنكّب على المعرفة» (Nerdy) تشجع المخرجات التي تتضمن إشارات إلى مخلوقات خيالية، حيث أظهر 76.2% من مجموعة التدريب هذا الانحياز. وقد شكّلت شخصية «Nerdy» نسبة 2.5% فقط من ردود ChatGPT، لكنها ساهمت بنسبة 66.7% من الإشارات إلى goblin، مع ارتفاع الوقوعات بنسبة 3,881% من GPT-5.2 إلى GPT-5.4.

أزالت OpenAI شخصية «Nerdy» في مارس، وألغت إشارة المكافأة المتحيزة، وفلترت بيانات التدريب. كما أضافت الشركة تعليمات كبح إلى مطالب المطور (developer prompts) في GPT-5.5 داخل Codex. وقد قادت التحقيقات إلى تطوير أدوات جديدة لمراجعة سلوك النماذج.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

04-29 10:31

البيت الأبيض يتجاوز تقييم مخاطر البنتاغون لنشر نموذج Anthropic Mythos في 29 أبريل

04-29 07:21

OpenAI 研究人员：AI 系统或可在两年内处理大部分研究工作

04-29 04:33

نماذج OpenAI ستنتقل تدريجيًا إلى شريحة Trainium المخصصة من Amazon، كما يقول ألتمان إنه "يتطلع إليها"

04-29 04:29

ألتمان: يصبح التسعير المعتمد على الرموز عتيقًا مع انتقال GPT-5.5 إلى التركيز على إنجاز المهام بدلًا من عدد الرموز

04-28 18:52

أنثروبيك تصل إلى تقييم $1 تريليون، متجاوزة OpenAI في الأسواق الثانوية

تحليل متعمق