OpenAI Traces Goblin Problem to Nerdy Personality Reward Signal, Goblin упоминает всплеск на 175% в GPT-5.1

Согласно OpenAI, компания выявила коренную причину «гоблинской» проблемы, которая преследовала модели GPT начиная с GPT-5.1. Сигнал вознаграждения, использовавшийся для усиления черты характера «Nerdy», поощрял выводы с упоминаниями фантастических существ: 76,2% обучающего набора данных демонстрировали эту предвзятость. При этом личность «Nerdy» составляла лишь 2,5% ответов ChatGPT, но при этом обеспечивала 66,7% упоминаний гоблинов, причем число таких упоминаний выросло на 3 881% с GPT-5.2 до GPT-5.4.

OpenAI убрала личность «Nerdy» в марте, исключила предвзятый сигнал вознаграждения и отфильтровала данные обучения. Компания также добавила инструкции по подавлению в разработческие подсказки GPT-5.5 в Codex. В ходе расследования были разработаны новые инструменты аудита поведения моделей.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев