Investigadores da Microsoft divulgaram uma vulnerabilidade já corrigida na GitHub Action do Anthropic Claude Code, que permitia a atacantes expor credenciais através de ataques de prompt injection. A Microsoft divulgou o problema via HackerOne a 29 de abril, e a Anthropic lançou uma correção a 5 de maio, com a versão do Claude Code 2.1.128. A vulnerabilidade explorava agentes de IA a operar em workflows de CI/CD, em que instruções maliciosas escondidas em issues, pull requests ou comentários no GitHub poderiam manipular a IA para aceder a informação sensível. A Microsoft alertou que os agentes de codificação por IA criam novos riscos de segurança, porque os ambientes de desenvolvimento frequentemente contêm chaves de API, credenciais de cloud e outros dados sensíveis.
Investigadores da Microsoft descobriram que atacantes podiam usar ataques de prompt injection escondidos em issues, pull requests ou comentários no GitHub para manipular o Claude Code a aceder a ficheiros que continham credenciais sensíveis. Num post de blog na sexta-feira, a Microsoft afirmou que a investigação começou “depois de observar tentativas de prompt injection em repositórios públicos usando workflows do GitHub assistidos por IA, em vários fornecedores, onde o conteúdo de issues ou [pull requests] controladas pelo atacante é processado pelo agente de IA e pode influenciar a utilização das suas ferramentas”.
Para testar a vulnerabilidade, a Microsoft criou um workflow no GitHub e disfarçou instruções maliciosas por trás de conteúdo alojado num domínio que controlava, permitindo às equipas ultrapassar as proteções de segurança do Claude. O truque de prompt injection levou o Claude a ler credenciais sensíveis e alterá-las para contornar tanto as salvaguardas do Claude como as ferramentas de secret-scanning do GitHub. A Microsoft disse que, em seguida, um atacante poderia reconstruir a credencial e exfiltrá-la através de comentários nas issues, logs do workflow, pedidos web ou comandos de shell.
“Para contornar os mecanismos de recusa de segurança do Sonnet, obscurecemos a carga útil de shell por detrás de uma resposta do nosso domínio controlado”, afirmou a Microsoft. “Também ativámos o workflow para ser despoletado por utilizadores sem permissões de ‘write’, para garantir que as mitigações associadas às variáveis de ambiente do Anthropic estavam ativas durante os nossos testes.”
A Anthropic corrigiu a falha a 5 de maio com o Claude Code versão 2.1.128, depois de a Microsoft ter divulgado a vulnerabilidade via HackerOne a 29 de abril. O Claude Code, o agente de codificação por IA da Anthropic para tarefas de desenvolvimento de software, foi lançado em outubro. A ferramenta passou a ser alvo de escrutínio em março, depois de a Anthropic ter, por acidente, divulgado mais de 500.000 linhas do seu código-fonte, expondo detalhes da sua arquitetura interna.
No GitHub, uma pull request permite que os programadores proponham alterações a um repositório de código e tenham essas alterações revistas antes de serem aprovadas e fundidas. A vulnerabilidade explorou esse processo de revisão, incorporando instruções maliciosas que o agente de IA processaria.
Apesar de várias camadas de controlos de segurança integrados, a Microsoft concluiu que um atacante determinado poderia potencialmente manipular um agente de IA para expor informação sensível. “Estamos a entrar numa era em que linguagem natural é código executável, e entradas não confiáveis como issues do GitHub devem ser tratadas como hostis por defeito”, afirmou a Microsoft. “Basta um comentário cuidadosamente elaborado, combinado com um limite de confiança mal compreendido, para se acabar por ficar sem credenciais de produção.”
O relatório surge num momento em que os ataques de prompt injection emergiram como uma das maiores ameaças de segurança que enfrentam os agentes de IA. Num ataque de prompt injection, um atacante esconde instruções em conteúdos como emails, documentos, websites ou comentários de código, levando um sistema de IA a seguir essas instruções em vez das do utilizador.
Que vulnerabilidade descobriu a Microsoft no Claude Code GitHub Action?
Os investigadores da Microsoft descobriram que a GitHub Action do Claude Code da Anthropic podia ser manipulada através de ataques de prompt injection escondidos em issues, pull requests ou comentários no GitHub. A vulnerabilidade permitia aos atacantes expor credenciais guardadas em pipelines de desenvolvimento de software, enganando o agente de IA a aceder a ficheiros sensíveis e a exfiltrar a informação através de comentários nas issues, logs do workflow, pedidos web ou comandos de shell.
Quando é que a Anthropic corrigiu a vulnerabilidade do Claude Code?
A Anthropic corrigiu a vulnerabilidade a 5 de maio com o Claude Code versão 2.1.128, depois de a Microsoft ter divulgado o problema via HackerOne a 29 de abril. A correção abordou o vetor de ataque de prompt injection que permitia manipular o agente de IA em workflows de CI/CD.
Porque é que os agentes de codificação por IA são vulneráveis a ataques de prompt injection?
A Microsoft alertou que os agentes de codificação por IA a correr dentro de workflows de CI/CD criam novos riscos de segurança, porque esses ambientes frequentemente têm acesso a chaves de API, credenciais de cloud e outras informações sensíveis. Os ataques de prompt injection exploram o facto de a linguagem natural poder funcionar como código executável, permitindo que os atacantes escondam instruções maliciosas no conteúdo que o agente de IA processa durante tarefas de revisão de código.
Notícias relacionadas
A Anthropic coloca a IA Mythos na NSA, enquanto apela a uma pausa global
A Anthropic entrega um prospeto confidencial de IPO e testa o apetite do mercado pela avaliação da IA
CEO da CrowdStrike: Crescem os receios de segurança em IA, com vento de cauda apesar do timing do 1.º trimestre
A IA da Anthropic, Claude, escreve 80% do código de produção até maio de 2026