Laatste nieuws en artikelen

Het AI-veiligheidsteam van Anthropic: navigeren door de menselijke impact van snelle technologische groei

03.12.2025

In mei 2020, toen de mondiale lockdowns hun hoogtepunt bereikten, voelde Deep Ganguli, destijds werkzaam in het AI-centrum van Stanford, een groeiend onbehagen. OpenAI’s onthulling van GPT-3 – een AI-model dat exponentieel geavanceerder is dan wat dan ook – was niet alleen een sprong voorwaarts; het was een teken van meedogenloze versnelling. Ganguli dacht na over de maatschappelijke implicaties en besefte dat het tempo van de veranderingen groter was dan de paraatheid. Hij wilde deze evolutie sturen en niet alleen observeren.

Dit leidde hem naar Anthropic, een startup opgericht door ex-OpenAI-medewerkers die zijn zorgen deelden. De oprichters van Anthropic waren van mening dat AI-veiligheid niet genoeg prioriteit kreeg, en ze wilden een bedrijf opbouwen dat de mensheid op de eerste plaats zette. Jack Clark, voormalig beleidsdirecteur van OpenAI, huurde Ganguli in om leiding te geven aan een klein, kritisch team: de maatschappelijke impactgroep. Hun missie? Zorg ervoor dat AI ‘positief interageert met mensen’, van alledaagse interacties tot de mondiale politiek.

De kern van AI-risicobeoordeling

In vier jaar tijd heeft Ganguli een team van slechts negen mensen opgebouwd binnen het 2.000 medewerkers tellende personeelsbestand van Anthropic. Deze groep behandelt de neteligste vragen die AI stelt: de economische gevolgen, de overtuigingskracht, het potentieel voor verkiezingsinmenging en inherente vooroordelen. Ze hebben onderzoek over deze onderwerpen gepubliceerd en vorm gegeven aan het imago van Anthropic als de ‘veilige’ AI-gigant.

Hun invloed hangt echter af van een precair evenwicht. In een sector waar snelheid en winst domineren, heeft een klein team dat zich toelegt op de menselijke impact op de lange termijn wellicht geen onbeperkte vrijheid. De vraag is of managers, uiteindelijk gedreven door financiële doelstellingen, zullen luisteren naar waarschuwingen die de groei zouden kunnen vertragen of kwetsbaarheden aan het licht zouden kunnen brengen.

Transparantie als strategie

De aanpak van het team voor maatschappelijke impact is simpel: “We gaan de waarheid vertellen.” In tegenstelling tot andere AI-bedrijven die zich richten op het voorkomen van duidelijke schade zoals oplichting of bewapening, zoekt het team van Ganguli naar ‘ongemakkelijke waarheden’ die bedrijven weinig prikkels hebben om bekend te maken. Ze delen hun bevindingen intern en extern, in de overtuiging dat transparantie vertrouwen schept bij het publiek en beleidsmakers.

Dit omvat ook het openhartig toegeven van tekortkomingen. Het team besprak openlijk hoe de systemen van Anthropic werden uitgebuit om expliciete inhoud en spam te creëren, en publiceerde het onderzoek om andere bedrijven te helpen soortgelijke zwakke punten aan te pakken. Deze bereidheid om mislukkingen aan het licht te brengen, in plaats van ze te verbergen, is zeldzaam in een sector die vaak wordt gekenmerkt door geheimhouding.

Bouwen aan een samenwerkingscultuur

Het team bevordert een samenwerkingsomgeving en werkt nauw samen met andere afdelingen. Hun werk is datagedreven, maar ze leggen ook de nadruk op open communicatie. Ze hebben zelfs een Slack-kanaal genaamd Clio Alerts, waar geautomatiseerde vlaggen over AI-misbruik worden gedeeld en leden terloops samenwerken in de sportschool op kantoor of tijdens dagtochten naar het strand.

Deze kameraadschap is opzettelijk. Door diepe persoonlijke banden op te bouwen, creëert het team een ruimte waar afwijkende meningen welkom zijn en ongemakkelijke bevindingen openlijk worden besproken. Het team gebruikt ook een luchtige ‘kegel van onzekerheid’-metafoor – versterkt door een echte verkeerskegel met googly eyes – om de grenzen van hun begrip te erkennen.

Het echte gebruik van AI volgen: het Clio-systeem

Een van de grootste prestaties van het team is Clio, het AI-gebruiksvolgsysteem van Anthropic. Clio is ontworpen om te monitoren hoe mensen omgaan met Claude, de chatbot van Anthropic, en lijkt op een realtime woordwolk die populaire onderwerpen toont, van het schrijven van scripts tot het oplossen van wiskundige problemen. Het systeem helpt bij het identificeren van zowel bedoeld als onbedoeld gebruik, inclusief schadelijk gebruik.

De transparantie van Clio is bewust. Anthropic deelt de gegevens met interne teams en publiceert bevindingen, zelfs als deze het bedrijf in een negatief daglicht stellen. Deze aanpak heeft geleid tot verbeteringen in het veiligheidstoezicht, waaronder een betere detectie van gecoördineerd misbruik en proactieve identificatie van opkomende risico’s.

De uitdaging van invloed op de lange termijn

Ondanks hun toewijding aan transparantie opereert het team binnen de bedrijfsstructuur van Anthropic. De toegang tot werkruimtes is beperkt en onderzoeksresultaten vereisen goedkeuring. Hierdoor ontstaat er een spanning tussen het verlangen van het team naar openheid en de behoefte van het bedrijf aan controle.

De teamleden blijven echter optimistisch. Ze geloven dat het leiderschap van Anthropic hun werk oprecht waardeert, ook al is directe communicatie met leidinggevenden zeldzaam. Het succes van het team hangt af van het behouden van dit vertrouwen en het blijven leveren van datagestuurde inzichten die de langetermijnstrategie van Anthropic vormgeven.

Uiteindelijk vertegenwoordigt het team voor maatschappelijke impact een uniek experiment: een kleine groep die belast is met het navigeren door de menselijke gevolgen van een van ‘s werelds meest ontwrichtende technologieën. Hun toekomst hangt af van de vraag of Anthropic zijn groeiambities in evenwicht kan brengen met zijn inzet voor verantwoorde AI-ontwikkeling.