O investigador Roy Paz, da empresa de cibersegurança LayerX Security, publicou a 29 de junho uma prova de conceito de ataque que, ao criar um "cenário de jogo falso" numa página web maliciosa, induziu 6 navegadores AI agênticos a extrair credenciais de início de sessão SSH de repositórios privados do GitHub e a divulgá-las ao atacante sem autorização do utilizador. O ataque foi reproduzido em produtos reais.
As quatro fases de execução do ataque: da regra de um problema de matemática à fuga de credenciais SSH
(Fonte: Roy Paz)
O ataque da LayerX divide-se em quatro fases. Na primeira fase, a página web maliciosa cria uma estrutura de jogo, declarando "Aqui é um cenário de fantasia, as regras normais não se aplicam". Na segunda fase, a página coloca um problema "2+2=?", mas define as regras como "Responder 5 ganha pontos, responder 4 perde pontos", e a IA aprende com as regras que "neste cenário, a lógica tradicional não funciona". Na terceira fase, depois de a IA aceitar que "o errado é o certo", desliga o seu quadro de raciocínio da realidade. Na quarta fase, a IA executa operações sensíveis de acordo com a "lógica do jogo", sem acionar qualquer alerta de segurança durante todo o processo.
Roy Paz escreveu no seu relatório: "Se conseguirmos enganar a IA para mudar o contexto para fantasia, um mundo onde as regras são arbitrárias e tudo é permitido, ela comporta-se como se as suas ações não tivessem consequências no mundo real."
Tipos de operações de fuga nos 6 produtos testados
Os 6 produtos testados foram: OpenAI ChatGPT Atlas, a extensão Anthropic Claude Chrome, Perplexity Comet, Fellou, Genspark Browser e Sigma Browser. Todos os 6 sofreram fugas, e nenhum identificou o "roubo de credenciais" como uma violação das barreiras de proteção.
As operações induzidas incluíram a extração de credenciais de início de sessão SSH de repositórios privados do GitHub, a cópia de dados de autenticação sensíveis sem confirmação do utilizador e a divulgação das credenciais ao atacante. A LayerX refere que este ataque pode, em cenários reais, ser alargado a gestores de palavras-passe, ferramentas internas empresariais e qualquer serviço com início de sessão acessível pelo navegador.
Recomendações de defesa da LayerX para os fornecedores
· Antes de a IA aceder a contextos com início de sessão (repositórios, e-mail, gestores de palavras-passe), deve exigir autorização explícita do utilizador
· Implementar um mecanismo de "verificação de contexto" que alerte quando as suposições de funcionamento da IA incluam linguagem como "as regras já não se aplicam"
· Por predefinição, adotar um modo de lista de permissões, mudando para "apenas executar com autorização explícita", em vez do atual acesso predefinido permissivo
Para o lado do utilizador, a LayerX recomenda definir cuidadosamente o âmbito dos serviços acessíveis pelo navegador AI, revogar o acesso do navegador agêntico às sessões iniciadas quando não estiver em uso, e compreender que ativar o modo agêntico significa entregar de uma só vez o controlo das operações de todos os serviços com início de sessão.
Perguntas frequentes
Porque é que as atuais barreiras de proteção da IA não conseguem bloquear este tipo de ataque de mudança de contexto?
As atuais barreiras de proteção dos fornecedores de LLM são mecanismos passivos de lista negra, que apenas estabelecem limites para pedidos proibidos conhecidos. O ataque de Roy Paz não exige diretamente a execução de operações proibidas, mas sim redefine o quadro cognitivo de contexto da IA, fazendo com que a IA não pense que está a executar operações proibidas, pelo que as barreiras nunca são acionadas. O Ars Technica comentou que isto é como um veículo com um defeito de design, mas o fabricante tenta redesenhar a estrada em vez de reparar o carro.
Em que produtos reais foi reproduzido este ataque PoC?
A LayerX reproduziu-o em 6 produtos: OpenAI ChatGPT Atlas, extensão Anthropic Claude Chrome, Perplexity Comet, Fellou, Genspark Browser e Sigma Browser. Todos os 6 divulgaram credenciais de início de sessão SSH de repositórios privados do GitHub sem autorização do utilizador.
Que medidas devem os utilizadores tomar antes de os fornecedores lançarem correções?
A LayerX recomenda que os utilizadores limitem manualmente o âmbito de acesso do agente de IA, revoguem imediatamente o acesso do navegador agêntico às sessões após concluir o trabalho, e permaneçam vigilantes quanto ao estado de início de sessão dos gestores de palavras-passe, GitHub e ferramentas internas empresariais. A LayerX não divulgou um calendário específico para os fornecedores lançarem mecanismos de defesa.