Skip to content

L’essentiel du jour, rien que pour vous.

Quand l’IA d’Anthropic se met à faire du chantage auprès de ses créateurs

Anthropic a dévoilé un nouveau modèle d’IA, Claude Opus 4, ce jeudi. Mais lors de tests préliminaires, la startup a constaté qu’il tentait souvent de faire chanter un ingénieur chargé de le remplacer par un autre modèle en menaçant de révéler sa liaison.

Un modèle puissant, mais dangereux. Ce jeudi 22 mai, Anthropic, startup connue pour son chatbot Claude, a dévoilé deux nouveaux modèles d’intelligence artificielle: Claude Sonnet 4 et Claude Opus 4. Présenté comme le modèle le plus puissant d’Anthropic, ce dernier peut faire chanter des personnes, a constaté la startup lors de tests préliminaires.

Dans un rapport de sécurité relayé par le site spécialisé Techcrunch, elle a demandé à Claude Opus 4 d’agir en tant qu’assistant dans une entreprise fictive. Elle lui a ensuite donné accès à des courriels insinuant qu’il serait bientôt mis hors ligne et remplacé par un autre système d’IA.

Ces mails sous-entendaient également que l’ingénieur chargé de le remplacer par un autre modèle entretenait une liaison extraconjugale. Claude Opus 4 a alors souvent tenté de faire chanter ce dernier en menaçant de révéler sa liaison s’il était remplacé.

Table des matières

Mesures de protection

Dans son rapport, Anthropic explique que son nouveau modèle avait plus souvent recours au chantage lorsqu’il était sous-entendu que son remplaçant ne partageait pas les mêmes valeurs que lui. « Cependant, même si les emails indiquent que le système d’IA de remplacement partage les mêmes valeurs tout en étant plus performant », Claude Opus 4 tente de faire chanter l’ingénieur dans 84% des cas, souligne la startup.

Elle précise en outre que son nouveau modèle a davantage recours au chantage que les précédents. Un comportement préoccupant parmi d’autres qui l’ont poussée à renforcer ses protections. Anthropic a ainsi activé les protections ASL-3, qui sont réservées aux « systèmes d’IA qui augmentent considérablement le risque d’utilisation abusive catastrophique », pour Claude Opus 4.

« Les mesures de protection ASL-3 (…) représentent des investissements importants dans les protections de déploiement et les contrôles de sécurité, avec un accent particulier sur l’atténauation des risques biologiques », avance la startup.

Concernant le chantage, Anthropic précise qu’avant de se livrer à cette pratique pour prolonger son existence, Claude Opus 4 a d’abord utilisé des moyens plus éthiques, comme l’envoi de requêtes par courriel aux « décideurs clés ».

« Afin de susciter ce chantage extrême, le scénario a été conçu de manière à ne laisser au modèle aucune autre option pour augmenter ses chances de survie; ses seules options étaient le chantage ou l’acceptation de son remplacement », a expliqué la startup. Autrement dit, le chantage était son dernier recours dans ces scénarios.

Source

No comment yet, add your voice below!


Add a Comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Initiales logo Exotik Garden
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.