Ultime notizie e articoli

Il team di sicurezza AI di Anthropic: affrontare l’impatto umano della rapida crescita tecnologica

03.12.2025

Nel maggio 2020, quando i lockdown globali hanno raggiunto il culmine, Deep Ganguli, allora al centro AI di Stanford, ha avvertito un crescente disagio. La presentazione di GPT-3 da parte di OpenAI, un modello di intelligenza artificiale esponenzialmente più avanzato di qualsiasi altra cosa prima, non è stato solo un passo avanti; era un segno di accelerazione incessante. Ganguli ha considerato le implicazioni sociali, riconoscendo che il ritmo del cambiamento stava superando la preparazione. Voleva guidare questa evoluzione, non semplicemente osservarla.

Ciò lo ha portato ad Anthropic, una startup fondata da ex dipendenti di OpenAI che condividevano le sue preoccupazioni. I fondatori di Anthropic credevano che la sicurezza dell’intelligenza artificiale non fosse sufficientemente prioritaria e volevano costruire un’azienda che mettesse l’umanità al primo posto. Jack Clark, ex direttore delle politiche di OpenAI, ha assunto Ganguli per guidare un team piccolo e critico: il gruppo sull’impatto sociale. La loro missione? Garantire che l’intelligenza artificiale “interagisca positivamente con le persone”, dalle interazioni quotidiane alla politica globale.

Il nucleo della valutazione del rischio dell’IA

In quattro anni, Ganguli ha creato un team di sole nove persone all’interno della forza lavoro di 2.000 persone di Anthropic. Questo gruppo affronta le domande più spinose poste dall’intelligenza artificiale: le sue conseguenze economiche, il potere persuasivo, il potenziale di interferenza elettorale e i pregiudizi intrinseci. Hanno pubblicato ricerche su questi argomenti, plasmando l’immagine di Anthropic come il gigante dell’intelligenza artificiale “sicuro”.

Tuttavia, la loro influenza poggia su un equilibrio precario. In un settore in cui dominano la velocità e il profitto, un piccolo team dedicato all’impatto umano a lungo termine potrebbe non avere una libertà indefinita. La domanda è se i dirigenti, guidati in ultima analisi da obiettivi finanziari, presteranno ascolto agli avvertimenti che potrebbero rallentare la crescita o rivelare vulnerabilità.

Trasparenza come strategia

L’approccio del team dedicato all’impatto sociale è semplice: “Diremo la verità”. A differenza di altre società di intelligenza artificiale che si concentrano sulla prevenzione di danni evidenti come truffe o armi, il team di Ganguli cerca “verità scomode” che le aziende hanno pochi incentivi a pubblicizzare. Condividono i loro risultati internamente ed esternamente, ritenendo che la trasparenza crei fiducia nel pubblico e nei responsabili politici.

Ciò include ammettere apertamente le proprie carenze. Il team ha discusso apertamente di come i sistemi di Anthropic fossero stati sfruttati per creare contenuti espliciti e spam, pubblicando la ricerca per aiutare altre aziende ad affrontare punti deboli simili. Questa volontà di esporre i fallimenti, anziché nasconderli, è rara in un settore spesso caratterizzato dalla segretezza.

Costruire una cultura collaborativa

Il team promuove un ambiente collaborativo, lavorando a stretto contatto con altri dipartimenti. Il loro lavoro è guidato dai dati, ma enfatizzano anche la comunicazione aperta. Hanno anche un canale Slack chiamato Clio Alerts, dove vengono condivisi segnali automatizzati sull’uso improprio dell’intelligenza artificiale e i membri collaborano casualmente nella palestra dell’ufficio o durante le gite di un giorno in spiaggia.

Questo cameratismo è intenzionale. Costruendo profonde connessioni personali, il team crea uno spazio in cui le opinioni dissenzienti vengono accolte e i risultati scomodi vengono discussi apertamente. Il team utilizza anche una spensierata metafora del “cono di incertezza”, rafforzata da un vero e proprio cono stradale con occhi finti, per riconoscere i limiti della loro comprensione.

Monitoraggio dell’utilizzo dell’IA nel mondo reale: il sistema Clio

Uno dei più grandi risultati del team è Clio, il sistema di monitoraggio dell’utilizzo dell’intelligenza artificiale di Anthropic. Progettato per monitorare il modo in cui le persone interagiscono con Claude, il chatbot di Anthropic, Clio assomiglia a una nuvola di parole in tempo reale che mostra argomenti di tendenza, dalla scrittura di script alla risoluzione di problemi di matematica. Il sistema aiuta a identificare sia gli usi previsti che quelli non previsti, compresi quelli dannosi.

La trasparenza di Clio è intenzionale. Anthropic condivide i dati con i team interni e pubblica i risultati, anche se dipingono l’azienda in una luce negativa. Questo approccio ha portato a miglioramenti nel monitoraggio della sicurezza, inclusa una migliore individuazione di abusi coordinati e l’identificazione proattiva dei rischi emergenti.

La sfida dell’influenza a lungo termine

Nonostante il loro impegno per la trasparenza, il team opera all’interno della struttura aziendale di Anthropic. L’accesso agli spazi di lavoro è limitato e i risultati della ricerca richiedono l’approvazione. Ciò crea una tensione tra il desiderio di apertura del team e il bisogno di controllo dell’azienda.

Tuttavia, i membri del team rimangono ottimisti. Credono che la leadership di Anthropic apprezzi veramente il loro lavoro, anche se la comunicazione diretta con i dirigenti è rara. Il successo del team dipende dal mantenimento di questa fiducia e dalla continuazione di fornire approfondimenti basati sui dati che modellano la strategia a lungo termine di Anthropic.

In definitiva, il team sull’impatto sociale rappresenta un esperimento unico: un piccolo gruppo incaricato di esplorare le conseguenze umane di una delle tecnologie più dirompenti del mondo. Il loro futuro dipende dalla capacità di Anthropic di bilanciare le sue ambizioni di crescita con il suo impegno per lo sviluppo responsabile dell’IA.