Une tempête croissante de critiques se prépare parmi les développeurs et les utilisateurs expérimentés de l’IA, beaucoup accusant Anthropic de dégrader intentionnellement les performances de ses modèles phares, en particulier Claude Opus 4.6 et Claude Code.
Les accusations – allant des affirmations de « rétrécissement de l’IA » aux théories de limitation intentionnelle – suggèrent que Claude est devenu moins performant, plus sujet aux erreurs et plus coûteux à utiliser qu’il y a quelques semaines à peine. Bien qu’Anthropic nie tout déclassement secret, des modifications récentes et documentées des paramètres du modèle ont fourni beaucoup d’huile sur le feu.
Les arguments en faveur de la régression : frustration des données et des développeurs
La controverse a pris une ampleur considérable grâce à des critiques techniques très médiatisées plutôt qu’à de simples plaintes anecdotiques.
L’un des rapports les plus influents est venu de Stella Laurenzo, directrice principale du groupe IA d’AMD. Dans une analyse détaillée de GitHub, Laurenzo a examiné des milliers de fichiers de session Claude Code et a conclu que la « profondeur de raisonnement » du modèle avait fortement diminué depuis février. Ses données suggèrent plusieurs tendances troublantes :
– Abandon prématuré de tâche : Le modèle s’arrête avant d’avoir terminé des instructions complexes.
– Biais de « solution la plus simple » : Une tendance à fournir des réponses simples et superficielles plutôt que des solutions d’ingénierie approfondies.
– Augmentation des boucles de raisonnement : Le modèle reste bloqué en se répétant.
Ce n’était pas seulement un sentiment ; il s’agissait d’un argument basé sur les données selon lequel, pour l’ingénierie avancée, le « raisonnement étendu » de Claude – la caractéristique même qui en fait un outil haut de gamme – semblait s’éroder.
“AI Shrinkflation” et la bataille des benchmarks
Le terme « IA Shrinkflation » est depuis devenu viral sur les réseaux sociaux, décrivant un phénomène dans lequel les utilisateurs paient le même prix d’abonnement mais reçoivent un produit « plus faible ».
Ce récit a été renforcé par un benchmark largement partagé de BridgeMind, qui affirmait que la précision de Claude Opus 4.6 dans les tests d’hallucinations avait chuté de 83,3 % à 68,3 %. Cependant, cette « preuve irréfutable » a été fortement contestée. Des chercheurs indépendants, comme Paul Calcraft, ont souligné que la comparaison était erronée :
– Le score initial élevé était basé sur seulement six tâches.
– Le dernier score inférieur était basé sur 30 tâches.
– En comparant les six mêmes tâches, la baisse de performance était en réalité marginale et probablement dans le domaine du bruit statistique.
Même si les données de référence peuvent être exagérées, le débat met en lumière une tension croissante dans l’industrie de l’IA : Comment mesurer « l’intelligence » d’un modèle constamment mis à jour ?
La défense anthropique : l’optimisation, pas la dégradation
Les dirigeants d’Anthropic ont rapidement nié qu’ils « énervent » le modèle. Au lieu de cela, ils soutiennent que ce que les utilisateurs perçoivent comme un déclassement est en fait une série d’optimisations délibérées du produit conçues pour équilibrer l’intelligence, la vitesse et le coût.
Les principales explications d’Anthropic incluent :
– Niveaux de réflexion et d’effort adaptatifs : Pour empêcher les utilisateurs de graver des jetons trop rapidement, Anthropic a déplacé l’Opus 4.6 vers « effort moyen » (niveau d’effort 85) par défaut. Les utilisateurs peuvent revenir manuellement à un raisonnement plus élevé en utilisant la commande « /effort high ».
– Modifications de l’interface utilisateur : Une mise à jour récente qui masque les blocs de « réflexion » dans l’interface était destinée à réduire la latence, et non à réduire le raisonnement réel qui se déroule sous le capot.
– Optimisation du cache : Anthropic a confirmé avoir expérimenté la « mise en cache rapide » (combien de temps l’IA se souvient des parties précédentes d’une conversation). Les modifications apportées à ces paramètres visaient à optimiser les coûts et l’efficacité, bien que certains utilisateurs affirment que cela a rendu les longues sessions plus coûteuses.
Pourquoi c’est important : le déficit de confiance
Les frictions entre Anthropic et ses utilisateurs expérimentés sont exacerbées par une réalité plus large : Les sociétés d’IA gèrent une demande sans précédent.
Fin mars, Anthropic a admis avoir ajusté les limites d’utilisation pendant les heures de pointe pour gérer la capacité. Bien qu’ils aient présenté cela comme une étape nécessaire au maintien du service, cela a créé un « climat de suspicion ». Lorsqu’une entreprise admet avoir modifié les limites d’utilisation pour gérer la demande, les utilisateurs sont beaucoup plus susceptibles de croire que toute baisse de qualité perçue est un moyen caché d’économiser sur les coûts informatiques.
L’essentiel : Même si Anthropic maintient que ses modifications sont des optimisations transparentes pour gérer les coûts et la latence, le changement des paramètres par défaut a créé un écart tangible entre l’expérience « hautement raisonnée » attendue par les utilisateurs et l’expérience « efficace » qu’ils reçoivent actuellement.
Conclusion : Le débat sur les performances de Claude révèle un conflit fondamental à l’ère de l’IA : à mesure que les modèles deviennent plus puissants et plus coûteux à exploiter, les fournisseurs chercheront inévitablement à les optimiser pour plus d’efficacité, souvent au détriment de la puissance « brute » sur laquelle s’appuient les utilisateurs professionnels.



























