Er ontstaat een groeiende storm van kritiek onder ontwikkelaars en AI-gebruikers, waarbij velen Anthropic ervan beschuldigen opzettelijk de prestaties van zijn vlaggenschipmodellen te verminderen, met name Claude Opus 4.6 en Claude Code.
De beschuldigingen – variërend van claims van ‘AI-krimpflatie’ tot theorieën over opzettelijke beperking – suggereren dat Claude minder capabel is geworden, gevoeliger voor fouten en duurder in gebruik is dan een paar weken geleden. Hoewel Anthropic elke geheime downgrade ontkent, hebben recente, gedocumenteerde wijzigingen in de instellingen van het model voldoende brandstof voor het vuur opgeleverd.
Het pleidooi voor regressie: frustratie over data en ontwikkelaars
De controverse kreeg een aanzienlijke impuls door spraakmakende technische kritiek in plaats van louter anekdotische klachten.
Een van de meest invloedrijke rapporten kwam van Stella Laurenzo, een Senior Director in de AI-groep van AMD. In een gedetailleerde GitHub-analyse onderzocht Laurenzo duizenden Claude Code-sessiebestanden en concludeerde dat de ‘redeneerdiepte’ van het model sinds februari scherp was gedaald. Haar gegevens suggereerden verschillende verontrustende trends:
– Voortijdig verlaten van taken: Het model stopt voordat complexe instructies zijn voltooid.
– Vooroordeel over de ‘eenvoudigste oplossing’: De neiging om gemakkelijke, oppervlakkige antwoorden te geven in plaats van diepgaande technische oplossingen.
– Verhoogde redeneerlussen: Het model blijft zichzelf herhalen.
Dit was niet alleen maar een gevoel; het was een op data gebaseerd argument dat voor geavanceerde techniek Claude’s ‘uitgebreide redenering’ (de eigenschap die het tot een eersteklas hulpmiddel maakt) leek te eroderen.
“AI Shrinkflation” en de benchmarkstrijd
De term “AI-shrimflatie” is sindsdien viraal gegaan op sociale media en beschrijft een fenomeen waarbij gebruikers dezelfde abonnementsprijs betalen maar een “zwakker” product ontvangen.
Dit verhaal werd ondersteund door een breed gedeelde benchmark van BridgeMind, die beweerde dat de nauwkeurigheid van Claude Opus 4.6 in hallucinatietests was gedaald van 83,3% naar 68,3%. Dit ‘rokende wapen’ is echter zwaar omstreden. Onafhankelijke onderzoekers, zoals Paul Calcraft, wezen erop dat de vergelijking gebrekkig was:
– De initiële hoge score was gebaseerd op slechts zes taken.
– De latere lagere score was gebaseerd op 30 taken.
– Bij het vergelijken van dezelfde zes taken was de prestatiedaling feitelijk marginaal en waarschijnlijk binnen het bereik van statistische ruis.
Hoewel het benchmarkbewijs misschien overdreven is, benadrukt het debat een groeiende spanning in de AI-industrie: Hoe meet je de ‘intelligentie’ van een model dat voortdurend wordt bijgewerkt?
De verdediging van Anthropic: optimalisatie, geen degradatie
De leiding van Anthropic heeft snel ontkend dat ze het model ‘nerfen’. In plaats daarvan beweren ze dat wat gebruikers als een downgrade ervaren eigenlijk een reeks opzettelijke productoptimalisaties is, ontworpen om intelligentie, snelheid en kosten in evenwicht te brengen.
Belangrijke verklaringen van Anthropic zijn onder meer:
– Adaptief denk- en inspanningsniveau: Om te voorkomen dat gebruikers de tokens te snel opbranden, heeft Anthropic Opus 4.6 standaard naar “gemiddelde inspanning” (inspanningsniveau 85) verplaatst. Gebruikers kunnen zich handmatig weer aanmelden voor een hogere redenering door het commando /effort high te gebruiken.
– UI-wijzigingen: Een recente update die ‘denkblokken’ in de interface verbergt, was bedoeld om de latentie te verminderen, niet om de feitelijke redenering onder de motorkap te verminderen.
– Cache-optimalisatie: Anthropic heeft bevestigd dat ze hebben geëxperimenteerd met “prompt caching” (hoe lang de AI eerdere delen van een gesprek onthoudt). Wijzigingen in deze instellingen waren bedoeld om de kosten en efficiëntie te optimaliseren, hoewel sommige gebruikers beweren dat dit lange sessies duurder heeft gemaakt.
Waarom dit ertoe doet: de vertrouwenskloof
De wrijving tussen Anthropic en zijn hoofdgebruikers wordt verergerd door een bredere realiteit: AI-bedrijven beheren een ongekende vraag.
Eind maart gaf Anthropic toe dat hij de gebruikslimieten tijdens piekuren had aangepast om de capaciteit te beheren. Hoewel ze dit als een noodzakelijke stap beschouwden om de dienst draaiende te houden, creëerde het een ‘klimaat van achterdocht’. Wanneer een bedrijf toegeeft de gebruikslimieten te hebben gewijzigd om de vraag te beheersen, zullen gebruikers veel eerder gaan geloven dat elke waargenomen kwaliteitsvermindering een verborgen manier is om op computerkosten te besparen.
Het komt erop neer: Hoewel Anthropic volhoudt dat de wijzigingen transparante optimalisaties zijn om kosten en latentie te beheersen, heeft de verschuiving in de standaardinstellingen een tastbare kloof gecreëerd tussen de ‘hoog redenerende’ ervaring die gebruikers verwachtten en de ‘efficiënte’ ervaring die ze momenteel ontvangen.
Conclusie: Het debat over de prestaties van Claude brengt een fundamenteel conflict in het AI-tijdperk aan het licht: naarmate modellen krachtiger en duurder in gebruik worden, zullen providers onvermijdelijk proberen ze te optimaliseren voor efficiëntie, vaak ten koste van de ‘rauwe’ kracht waar professionele gebruikers op vertrouwen.
