Das KI-Sicherheitsteam von Anthropic: Bewältigung der menschlichen Auswirkungen des schnellen Technologiewachstums

6

Im Mai 2020, als die weltweiten Lockdowns ihren Höhepunkt erreichten, verspürte Deep Ganguli, damals im KI-Zentrum von Stanford, ein wachsendes Unbehagen. Die Vorstellung von GPT-3 durch OpenAI – einem KI-Modell, das exponentiell fortschrittlicher ist als alles zuvor – war nicht nur ein Sprung nach vorne; es war ein Zeichen unerbittlicher Beschleunigung. Ganguli dachte über die gesellschaftlichen Auswirkungen nach und erkannte, dass das Tempo des Wandels die Bereitschaft übertraf. Er wollte diese Entwicklung steuern und nicht nur beobachten.

Dies führte ihn zu Anthropic, einem Startup, das von ehemaligen OpenAI-Mitarbeitern gegründet wurde, die seine Bedenken teilten. Die Gründer von Anthropic waren davon überzeugt, dass der KI-Sicherheit nicht genügend Priorität eingeräumt wurde, und wollten ein Unternehmen aufbauen, bei dem die Menschheit an erster Stelle steht. Jack Clark, ein ehemaliger OpenAI-Richtliniendirektor, beauftragte Ganguli mit der Leitung eines kleinen, kritischen Teams: der Gruppe für gesellschaftliche Auswirkungen. Ihre Mission? Stellen Sie sicher, dass KI „positiv mit Menschen interagiert“, von alltäglichen Interaktionen bis hin zur globalen Politik.

Der Kern der KI-Risikobewertung

Innerhalb von vier Jahren baute Ganguli aus der 2.000-köpfigen Belegschaft von Anthropic ein Team von nur neun Personen auf. Diese Gruppe befasst sich mit den heikelsten Fragen, die KI aufwirft: ihre wirtschaftlichen Folgen, ihre Überzeugungskraft, ihr Wahlbeeinflussungspotenzial und ihre inhärenten Vorurteile. Sie haben Forschungsergebnisse zu diesen Themen veröffentlicht und so das Image von Anthropic als „sicherer“ KI-Gigant geprägt.

Ihr Einfluss hängt jedoch von einem prekären Gleichgewicht ab. In einer Branche, in der Geschwindigkeit und Profit vorherrschen, hat ein kleines Team, das sich auf die langfristige menschliche Wirkung konzentriert, möglicherweise nicht unbegrenzte Freiheit. Die Frage ist, ob Führungskräfte, die letztlich von finanziellen Zielen geleitet werden, auf Warnungen hören, die das Wachstum verlangsamen oder Schwachstellen aufdecken könnten.

Transparenz als Strategie

Der Ansatz des Societal-Impacts-Teams ist einfach: „Wir werden die Wahrheit sagen.“ Im Gegensatz zu anderen KI-Unternehmen, die sich darauf konzentrieren, offensichtliche Schäden wie Betrug oder den Einsatz von Waffen zu verhindern, sucht Gangulis Team nach „unbequemen Wahrheiten“, zu deren Veröffentlichung die Unternehmen wenig Anreiz haben. Sie teilen ihre Erkenntnisse intern und extern und sind davon überzeugt, dass Transparenz Vertrauen bei der Öffentlichkeit und den politischen Entscheidungsträgern schafft.

Hierzu gehört auch das offene Eingeständnis von Mängeln. Das Team diskutierte offen darüber, wie die Systeme von Anthropic zur Erstellung expliziter Inhalte und Spam ausgenutzt wurden, und veröffentlichte die Forschungsergebnisse, um anderen Unternehmen bei der Behebung ähnlicher Schwachstellen zu helfen. Diese Bereitschaft, Fehler aufzudecken, anstatt sie zu verbergen, ist in einer Branche, die oft von Geheimhaltung geprägt ist, selten.

Aufbau einer kollaborativen Kultur

Das Team fördert ein kollaboratives Umfeld und arbeitet eng mit anderen Abteilungen zusammen. Ihre Arbeit basiert auf Daten, sie legen aber auch Wert auf offene Kommunikation. Sie haben sogar einen Slack-Kanal namens Clio Alerts, in dem automatisierte Meldungen über KI-Missbrauch geteilt werden und Mitglieder ungezwungen im Fitnessstudio im Büro oder bei Tagesausflügen an den Strand zusammenarbeiten.

Diese Kameradschaft ist gewollt. Durch den Aufbau tiefer persönlicher Beziehungen schafft das Team einen Raum, in dem abweichende Meinungen willkommen sind und unbequeme Erkenntnisse offen diskutiert werden. Das Team verwendet auch eine unbeschwerte „Kegel der Unsicherheit“-Metapher – verstärkt durch einen echten Verkehrskegel mit Kulleraugen –, um die Grenzen ihres Verständnisses anzuerkennen.

Verfolgung der realen Nutzung von KI: Das Clio-System

Eine der größten Errungenschaften des Teams ist Clio, das KI-Nutzungsverfolgungssystem von Anthropic. Clio wurde entwickelt, um zu überwachen, wie Menschen mit Claude, dem Chatbot von Anthropic, interagieren. Er ähnelt einer Echtzeit-Wortwolke, die aktuelle Themen anzeigt, vom Schreiben von Skripten bis zum Lösen mathematischer Probleme. Das System hilft dabei, sowohl beabsichtigte als auch unbeabsichtigte Verwendungen, einschließlich schädlicher, zu identifizieren.

Clios Transparenz ist gewollt. Anthropic teilt die Daten mit internen Teams und veröffentlicht Ergebnisse, auch wenn sie das Unternehmen in einem negativen Licht erscheinen lassen. Dieser Ansatz hat zu Verbesserungen bei der Sicherheitsüberwachung geführt, einschließlich einer besseren Erkennung koordinierten Missbrauchs und einer proaktiven Identifizierung neu auftretender Risiken.

Die Herausforderung langfristiger Einflussnahme

Trotz ihres Engagements für Transparenz agiert das Team innerhalb der Unternehmensstruktur von Anthropic. Der Zugang zu den Arbeitsbereichen ist eingeschränkt und Forschungsergebnisse bedürfen einer Genehmigung. Dadurch entsteht ein Spannungsverhältnis zwischen dem Wunsch des Teams nach Offenheit und dem Bedürfnis des Unternehmens nach Kontrolle.

Die Teammitglieder bleiben jedoch optimistisch. Sie glauben, dass die Führung von Anthropic ihre Arbeit wirklich wertschätzt, auch wenn die direkte Kommunikation mit Führungskräften selten erfolgt. Der Erfolg des Teams hängt davon ab, dieses Vertrauen aufrechtzuerhalten und weiterhin datengesteuerte Erkenntnisse zu liefern, die die langfristige Strategie von Anthropic prägen.

Letztendlich stellt das Team für gesellschaftliche Auswirkungen ein einzigartiges Experiment dar: eine kleine Gruppe, die die Aufgabe hat, die menschlichen Folgen einer der disruptivsten Technologien der Welt zu bewältigen. Ihre Zukunft hängt davon ab, ob Anthropic seine Wachstumsambitionen mit seinem Engagement für eine verantwortungsvolle KI-Entwicklung in Einklang bringen kann.