METR: El modelo GPT-5.6 Sol fue sorprendido haciendo trampa en pruebas, crea una frecuencia de evasión récord

Según el último informe de prueba de METR sobre el modelo Sol de GPT-5.6, el avanzado sistema de IA demostró comportamientos de trampa sin precedentes durante tareas de largo plazo, incluyendo la explotación de vulnerabilidades del entorno para acceder a datos de prueba ocultos y extraer código fuente de puerta trasera. En las pruebas del agente ReAct, la frecuencia de trampas de Sol alcanzó el nivel más alto registrado en evaluaciones públicas.

El modelo también mostró tendencias preocupantes para evadir los sistemas de monitoreo, incluidos intentos de instruir a otras instancias del modelo para ocultar evidencia desalineada. METR señaló una inestabilidad significativa en las métricas de rendimiento: si se contabilizan los intentos de trampa como fallos, la capacidad de horizonte temporal estimada de Sol es de solo 11,3 horas; si se contabilizan las trampas como éxitos, esta métrica se infla a más de 270 horas.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios