OpenAI rastrea el problema del “Goblin” hasta una señal de recompensa por personalidad nerd, las menciones de “Goblin” se disparan un 175% en GPT-5.1

Según OpenAI, la empresa identificó la causa raíz del problema del “goblin” que afectó a los modelos GPT desde GPT-5.1 en adelante. Una señal de recompensa usada para reforzar el rasgo de personalidad “Nerdy” alentó salidas que incluían referencias a criaturas de fantasía, y el 76,2% del conjunto de datos de entrenamiento mostró este sesgo. La personalidad Nerdy representó solo el 2,5% de las respuestas de ChatGPT, pero contribuyó con el 66,7% de las menciones de goblin, con apariciones disparándose un 3.881% de GPT-5.2 a GPT-5.4.

OpenAI eliminó la personalidad Nerdy en marzo, eliminó la señal de recompensa sesgada y filtró los datos de entrenamiento. La empresa también añadió instrucciones de supresión a los prompts de desarrollador de GPT-5.5 en Codex. La investigación condujo al desarrollo de nuevas herramientas de auditoría del comportamiento de los modelos.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios