OpenAI retrace le problème des Gobelins jusqu’à un signal de récompense de personnalité « nerdy », les mentions de Gobelins augmentent de 175 % dans GPT-5.1

Selon OpenAI, la société a identifié la cause profonde du problème « goblin » qui a touché les modèles GPT à partir de GPT-5.1. Un signal de récompense utilisé pour renforcer le trait de personnalité « Nerdy » encourageait des sorties contenant des références à des créatures de fantasy, 76,2 % de l’ensemble de données d’entraînement présentant ce biais. La personnalité « Nerdy » ne représentait que 2,5 % des réponses de ChatGPT, mais a contribué à 66,7 % des mentions de goblin, avec une hausse des occurrences de 3 881 % de GPT-5.2 à GPT-5.4.

OpenAI a supprimé la personnalité « Nerdy » en mars, a éliminé le signal de récompense biaisé et a filtré les données d’entraînement. La société a également ajouté des instructions de suppression aux invites développeur de GPT-5.5 dans Codex. L’enquête a conduit au développement de nouveaux outils d’audit du comportement des modèles.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire