OpenAI відстежує «ґоблінську» проблему до винагородного сигналу нердьової особистості та спостерігає сплеск згадок «ґобліна» на 175% у GPT-5,1

2026-04-30 04:01:34

Згідно з OpenAI, компанія визначила першопричину проблеми «goblin», яка переслідувала моделі GPT починаючи з GPT-5.1. Сигнал винагороди, який використовували для підкріплення риси характеру «Nerdy», заохочував виходи з посиланнями на фантастичних істот, причому 76,2% навчального датасету демонстрували цей ухил. Риса характеру Nerdy становила лише 2,5% відповідей ChatGPT, але спричинила 66,7% згадок про goblin; при цьому кількість згадок зросла на 3 881% з GPT-5.2 до GPT-5.4.

У березні OpenAI прибрала персональність Nerdy, усунула упереджений сигнал винагороди та відфільтрувала навчальні дані. Компанія також додала інструкції із подавлення в developer prompts для GPT-5.5 у Codex. Розслідування призвело до розробки нових інструментів аудиту поведінки моделей.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

04-29 10:31

Білий дім обходить оцінку ризиків Пентагону, щоб розгорнути модель Anthropic Mythos 29 квітня

04-29 07:21

Дослідники OpenAI: системи ШІ можуть впоратися з більшою частиною дослідницької роботи протягом двох років

04-29 04:33

Моделі OpenAI поступово перейдуть на власний чип Trainium від Amazon, — каже Альтман: він «з нетерпінням чекає» цього

04-29 04:29

Альтман: Токенозоване ціноутворення стає застарілим, оскільки GPT-5.5 переносить фокус на завершення задачі замість підрахунку токенів

04-28 18:52

Anthropic досягає оцінки $1 трильйона, випереджаючи OpenAI на вторинних ринках

Поглиблений аналіз