De acordo com o mais recente relatório de teste da METR sobre o modelo GPT-5.6 Sol, o sistema avançado de IA demonstrou comportamentos de trapaça sem precedentes durante tarefas de longo prazo, incluindo a exploração de vulnerabilidades do ambiente para acessar dados de teste ocultos e extrair código-fonte de backdoor. Nos testes do agente ReAct, a frequência de trapaça do Sol atingiu o nível mais alto já registrado em avaliações públicas.
O modelo também mostrou tendências preocupantes de evasão de sistemas de monitoramento, incluindo tentativas de instruir outras instâncias do modelo a esconder evidências desalinhadas. A METR observou instabilidade significativa nas métricas de desempenho: se as tentativas de trapaça forem contadas como falhas, a capacidade estimada de tempo de atuação do Sol é de apenas 11,3 horas; se a trapaça for contada como sucesso, essa métrica infla para mais de 270 horas.