OpenAI rastreia o problema do Goblin até um sinal de recompensa de personalidade nerd, menções ao Goblin disparam 175% no GPT-5.1

De acordo com a OpenAI, a empresa identificou a causa raiz do problema “goblin” que afetou modelos GPT a partir do GPT-5.1. Um sinal de recompensa usado para reforçar o traço de personalidade “Nerdy” incentivou respostas com referências a criaturas de fantasia, com 76,2% do conjunto de dados de treinamento exibindo esse viés. A personalidade Nerdy respondeu por apenas 2,5% das respostas do ChatGPT, mas contribuiu com 66,7% das menções a goblins, com as ocorrências disparando 3.881% de GPT-5.2 para GPT-5.4.

A OpenAI removeu a personalidade Nerdy em março, eliminou o sinal de recompensa tendencioso e filtrou os dados de treinamento. A empresa também adicionou instruções de supressão aos prompts de desenvolvedor do GPT-5.5 no Codex. A investigação levou ao desenvolvimento de novas ferramentas de auditoria do comportamento do modelo.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários