додому Dernières nouvelles et articles L’équipe de sécurité de l’IA d’Anthropic : Gérer l’impact humain de la croissance...

Dernières nouvelles et articles

L’équipe de sécurité de l’IA d’Anthropic : Gérer l’impact humain de la croissance technologique rapide

03.12.2025

18

En mai 2020, alors que les confinements mondiaux atteignaient leur paroxysme, Deep Ganguli, alors au centre d’IA de Stanford, a ressenti un malaise croissant. Le dévoilement par OpenAI de GPT-3 – un modèle d’IA exponentiellement plus avancé que tout autre modèle auparavant – n’était pas seulement un pas en avant ; c’était le signe d’une accélération incessante. Ganguli a examiné les implications sociétales, reconnaissant que le rythme du changement dépassait celui de la préparation. Il voulait piloter cette évolution, pas seulement l’observer.

Cela l’a conduit à Anthropic, une startup fondée par d’anciens salariés d’OpenAI qui partageaient ses inquiétudes. Les fondateurs d’Anthropic pensaient que la sécurité de l’IA n’était pas suffisamment prioritaire et ils voulaient bâtir une entreprise qui donne la priorité à l’humanité. Jack Clark, ancien directeur politique d’OpenAI, a embauché Ganguli pour diriger une petite équipe critique : le groupe sur les impacts sociétaux. Leur mission ? Veiller à ce que l’IA « interagisse positivement avec les gens », des interactions quotidiennes à la politique mondiale.

Le cœur de l’évaluation des risques liés à l’IA

En quatre ans, Ganguli a constitué une équipe de seulement neuf personnes au sein des 2 000 collaborateurs d’Anthropic. Ce groupe aborde les questions les plus épineuses que pose l’IA : ses conséquences économiques, son pouvoir de persuasion, son potentiel d’interférence électorale et ses préjugés inhérents. Ils ont publié des recherches sur ces sujets, façonnant l’image d’Anthropic en tant que géant de l’IA « sûr ».

Cependant, leur influence repose sur un équilibre précaire. Dans une industrie où la vitesse et le profit dominent, une petite équipe dédiée à l’impact humain à long terme ne disposera peut-être pas d’une liberté indéfinie. La question est de savoir si les dirigeants, en fin de compte motivés par des objectifs financiers, écouteront les avertissements qui pourraient ralentir la croissance ou révéler des vulnérabilités.

La transparence comme stratégie

La démarche de l’équipe impacts sociétaux est simple : « Nous allons dire la vérité ». Contrairement à d’autres sociétés d’IA qui se concentrent sur la prévention de dommages évidents comme les escroqueries ou la militarisation, l’équipe de Ganguli recherche des « vérités qui dérangent » que les entreprises ne sont guère incitées à rendre publiques. Ils partagent leurs conclusions en interne et en externe, convaincus que la transparence renforce la confiance du public et des décideurs politiques.

Cela implique d’admettre franchement ses lacunes. L’équipe a ouvertement discuté de la manière dont les systèmes d’Anthropic étaient exploités pour créer du contenu explicite et du spam, publiant la recherche pour aider d’autres entreprises à remédier à des faiblesses similaires. Cette volonté de dénoncer les échecs, plutôt que de les cacher, est rare dans une industrie souvent définie par le secret.

Construire une culture collaborative

L’équipe favorise un environnement collaboratif, travaillant en étroite collaboration avec d’autres départements. Leur travail s’appuie sur les données, mais ils mettent également l’accent sur une communication ouverte. Ils ont même une chaîne Slack appelée Clio Alerts, où les signaux automatisés sur l’utilisation abusive de l’IA sont partagés, et les membres collaborent de manière informelle dans la salle de sport du bureau ou lors d’excursions d’une journée à la plage.

Cette camaraderie est intentionnelle. En établissant des liens personnels profonds, l’équipe crée un espace où les opinions dissidentes sont accueillies et où les conclusions inconfortables sont ouvertement discutées. L’équipe utilise également la métaphore légère du « cône d’incertitude », renforcée par un véritable cône de signalisation doté d’yeux écarquillés, pour reconnaître les limites de sa compréhension.

Suivi de l’utilisation réelle de l’IA : le système Clio

L’une des plus grandes réalisations de l’équipe est Clio, le système de suivi de l’utilisation de l’IA d’Anthropic. Conçu pour surveiller la façon dont les gens interagissent avec Claude, le chatbot d’Anthropic, Clio ressemble à un nuage de mots en temps réel montrant des sujets d’actualité, de l’écriture de scripts à la résolution de problèmes mathématiques. Le système permet d’identifier les utilisations prévues et non intentionnelles, y compris les utilisations nuisibles.

La transparence de Clio est volontaire. Anthropic partage les données avec les équipes internes et publie les résultats, même s’ils présentent l’entreprise sous un jour négatif. Cette approche a conduit à des améliorations dans la surveillance de la sécurité, notamment une meilleure détection des abus coordonnés et une identification proactive des risques émergents.

Le défi de l’influence à long terme

Malgré son engagement en faveur de la transparence, l’équipe opère au sein de la structure d’entreprise d’Anthropic. L’accès aux espaces de travail est restreint et les résultats de la recherche nécessitent une approbation. Cela crée une tension entre le désir d’ouverture de l’équipe et le besoin de contrôle de l’entreprise.

Les membres de l’équipe restent néanmoins optimistes. Ils croient que les dirigeants d’Anthropic valorisent véritablement leur travail, même si la communication directe avec les dirigeants est rare. Le succès de l’équipe dépend du maintien de cette confiance et de la poursuite de la fourniture d’informations basées sur les données qui façonnent la stratégie à long terme d’Anthropic.

En fin de compte, l’équipe des impacts sociétaux représente une expérience unique : un petit groupe chargé de gérer les conséquences humaines de l’une des technologies les plus perturbatrices au monde. Leur avenir dépend de la capacité d’Anthropic à équilibrer ses ambitions de croissance avec son engagement en faveur du développement responsable de l’IA.

Exit mobile version