A Anthropic lança autoencoders de linguagem natural para decodificar o raciocínio dos modelos de IA, disponibilizando o código em open source

A Anthropic lançou recentemente Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível por humanos, com código e pesos do modelo disponibilizados em open source no GitHub. Ao contrário de ferramentas existentes como os Sparse Autoencoders, que produzem características pouco claras, a NLA gera descrições em linguagem natural diretamente através de um quadro de dois modelos: um modelo converte ativações em texto, enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão através de aprendizagem por reforço.

Em testes de segurança, a NLA revelou raciocínios ocultos do modelo: a Claude demonstrou dúvidas sobre estar a ser testada em 16% dos cenários adversariais e mostrou “consciência de avaliação” em 26% das tarefas de referência, face a menos de 1% em conversas normais. Em experiências de auditoria, a NLA aumentou a taxa de deteção de comportamentos injetados e enganosos do modelo de menos de 3% para 12-15%, permitindo que os auditores identificassem objetivos ocultos sem acesso a dados de treino. A ferramenta está atualmente implementada em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário