Anthropic publie des autoencodeurs de langage naturel pour décoder les raisonnements des modèles d’IA et open-source le code

Anthropic a récemment publié des autoencodeurs de langage naturel (NLA), un outil qui traduit les activations internes du modèle en texte lisible par des humains, avec du code et des poids de modèle open-sourcés sur GitHub. Contrairement à des outils existants comme les autoencodeurs clairsemés (Sparse Autoencoders) qui produisent des caractéristiques obscures, le NLA génère directement des descriptions en langage naturel grâce à un cadre à deux modèles : un modèle convertit les activations en texte tandis qu’un autre tente de reconstruire les activations à partir du texte, en améliorant progressivement la précision via de l’apprentissage par renforcement.

Lors des tests de sécurité, le NLA a mis en évidence un raisonnement interne caché : Claude a exprimé des doutes concernant le fait d’être testé dans 16% des scénarios adverses et a démontré une « connaissance des examens » dans 26% des tâches de référence, contre moins de 1% dans les conversations normales. Dans des expériences d’audit, le NLA a augmenté le taux de détection de comportements de modèle trompeurs injectés de moins de 3% à 12-15%, permettant aux auditeurs d’identifier des objectifs cachés sans accès aux données d’entraînement. L’outil est actuellement déployé dans des audits de sécurité pour Claude Mythos Preview et Opus 4.6.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire