Una crescente tempesta di critiche si sta preparando tra gli sviluppatori e gli utenti esperti di intelligenza artificiale, con molti che accusano Anthropic di degradare intenzionalmente le prestazioni dei suoi modelli di punta, in particolare Claude Opus 4.6 e Claude Code.
Le accuse, che vanno dalle affermazioni sulla “restringimento dell’intelligenza artificiale” alle teorie sulla limitazione intenzionale, suggeriscono che Claude è diventato meno capace, più incline agli errori e più costoso da usare rispetto a poche settimane fa. Sebbene Anthropic neghi qualsiasi downgrade segreto, le modifiche recenti e documentate alle impostazioni del modello hanno fornito molta benzina sul fuoco.
Il caso della regressione: dati e frustrazione degli sviluppatori
La controversia ha acquisito uno slancio significativo attraverso critiche tecniche di alto profilo piuttosto che semplici lamentele aneddotiche.
Uno dei rapporti più influenti è arrivato da Stella Laurenzo, Senior Director del gruppo AI di AMD. In un’analisi dettagliata di GitHub, Laurenzo ha esaminato migliaia di file di sessioni di Claude Code e ha concluso che la “profondità di ragionamento” del modello era diminuita drasticamente da febbraio. I suoi dati suggerivano diverse tendenze preoccupanti:
– Abbandono prematuro dell’attività: il modello si ferma prima di completare istruzioni complesse.
– Pregiudizio della “soluzione più semplice”: Tendenza a fornire risposte facili e superficiali piuttosto che soluzioni ingegneristiche approfondite.
– Aumento dei cicli di ragionamento: il modello si blocca nel ripetersi.
Questa non era solo una sensazione; si trattava di un argomento basato sui dati che, per l’ingegneria avanzata, il “ragionamento esteso” di Claude – proprio la caratteristica che lo rende uno strumento premium – sembrava essere in fase di erosione.
“AI Shrinkflation” e la battaglia dei benchmark
Da allora il termine “riduzione dell’inflazione basata sull’intelligenza artificiale” è diventato virale sui social media, descrivendo un fenomeno in cui gli utenti pagano lo stesso prezzo di abbonamento ma ricevono un prodotto “più debole”.
Questa narrazione è stata rafforzata da un benchmark ampiamente condiviso da BridgeMind, che affermava che la precisione di Claude Opus 4.6 nei test sulle allucinazioni era crollata dall’83,3% al 68,3%. Tuttavia, questa “pistola fumante” è stata pesantemente contestata. Ricercatori indipendenti, come Paul Calcraft, hanno sottolineato che il confronto era errato:
– Il punteggio elevato iniziale era basato solo su sei compiti.
– Il punteggio più basso successivo era basato su 30 attività.
– Confrontando gli stessi sei compiti, il calo delle prestazioni è stato in realtà marginale e probabilmente nell’ambito del rumore statistico.
Sebbene i dati di riferimento possano essere sopravvalutati, il dibattito evidenzia una crescente tensione nel settore dell’intelligenza artificiale: Come si misura l’”intelligenza” di un modello che viene costantemente aggiornato?
La difesa dell’antropologia: ottimizzazione, non degrado
La leadership di Anthropic si è affrettata a negare che stiano “depotenziando” il modello. Sostengono invece che ciò che gli utenti percepiscono come un downgrade è in realtà una serie di ottimizzazioni deliberate del prodotto progettate per bilanciare intelligenza, velocità e costi.
Le spiegazioni chiave di Anthropic includono:
– Pensiero adattivo e livelli di impegno: per evitare che gli utenti brucino i token troppo velocemente, Anthropic ha spostato Opus 4.6 su “impegno medio” (livello di impegno 85) per impostazione predefinita. Gli utenti possono attivare nuovamente manualmente il ragionamento più elevato utilizzando il comando “/effort high”.
– Modifiche all’interfaccia utente: un recente aggiornamento che nasconde i blocchi “pensanti” nell’interfaccia aveva lo scopo di ridurre la latenza, non di ridurre il ragionamento effettivo che avviene dietro il cofano.
– Ottimizzazione della cache: Anthropic ha confermato di aver sperimentato il “caching immediato” (per quanto tempo l’IA ricorda le parti precedenti di una conversazione). Le modifiche a queste impostazioni avevano lo scopo di ottimizzare costi ed efficienza, anche se alcuni utenti sostengono che ciò abbia reso le sessioni lunghe più costose.
Perché è importante: il divario di fiducia
L’attrito tra Anthropic e i suoi utenti esperti è esacerbato da una realtà più ampia: Le società di intelligenza artificiale stanno gestendo una domanda senza precedenti.
Alla fine di marzo, Anthropic ha ammesso di aver modificato i limiti di utilizzo durante le ore di punta per gestire la capacità. Sebbene lo considerassero un passo necessario per mantenere il servizio in funzione, creò un “clima di sospetto”. Quando un’azienda ammette di aver modificato i limiti di utilizzo per gestire la domanda, gli utenti sono molto più propensi a credere che qualsiasi calo di qualità percepito sia un modo nascosto per risparmiare sui costi di elaborazione.
Il risultato finale: Mentre Anthropic sostiene che i suoi cambiamenti sono ottimizzazioni trasparenti per gestire costi e latenza, il cambiamento nelle impostazioni predefinite ha creato un divario tangibile tra l’esperienza “ragionante” che gli utenti si aspettavano e l’esperienza “efficiente” che stanno attualmente ricevendo.
Conclusione: Il dibattito sulle prestazioni di Claude rivela un conflitto fondamentale nell’era dell’intelligenza artificiale: man mano che i modelli diventano più potenti e costosi da gestire, i fornitori cercheranno inevitabilmente di ottimizzarli per l’efficienza, spesso a scapito della potenza “grezza” su cui fanno affidamento gli utenti professionali.



























