Согласно OpenAI, компания выявила коренную причину «гоблинской» проблемы, которая преследовала модели GPT начиная с GPT-5.1. Сигнал вознаграждения, использовавшийся для усиления черты характера «Nerdy», поощрял выводы с упоминаниями фантастических существ: 76,2% обучающего набора данных демонстрировали эту предвзятость. При этом личность «Nerdy» составляла лишь 2,5% ответов ChatGPT, но при этом обеспечивала 66,7% упоминаний гоблинов, причем число таких упоминаний выросло на 3 881% с GPT-5.2 до GPT-5.4.

OpenAI убрала личность «Nerdy» в марте, исключила предвзятый сигнал вознаграждения и отфильтровала данные обучения. Компания также добавила инструкции по подавлению в разработческие подсказки GPT-5.5 в Codex. В ходе расследования были разработаны новые инструменты аудита поведения моделей.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

04-29 10:31

Белый дом обходит оценку рисков Пентагона, чтобы развернуть модель Mythos от Anthropic 29 апреля

04-29 07:21

Исследователи OpenAI: системы ИИ могут справиться с большей частью исследовательской работы в течение двух лет

04-29 04:33

Модели OpenAI будут постепенно мигрировать на настраиваемый чип Trainium от Amazon, — говорит Альтман, что он «с нетерпением ждет этого»

04-29 04:29

Альтман: Токен-ориентированное ценообразование становится устаревшим, поскольку GPT-5.5 переносит акцент на завершение задач, а не на количество токенов

04-28 18:52

Anthropic Reaches $1 Trillion Valuation, Surpassing OpenAI in Secondary Markets

Детальный анализ