Ist Anthropic „Nerfing“ für Claude? Die Debatte über KI-Leistung und „Schrumpfflation“

12

Unter Entwicklern und KI-Power-Usern braut sich ein wachsender Sturm der Kritik zusammen. Viele beschuldigen Anthropic, die Leistung seiner Flaggschiffmodelle, insbesondere Claude Opus 4.6 und Claude Code, absichtlich herabzusetzen.

Die Vorwürfe – die von Behauptungen einer „KI-Schrumpfung“ bis hin zu Theorien einer absichtlichen Drosselung reichen – deuten darauf hin, dass Claude weniger leistungsfähig, fehleranfälliger und teurer in der Nutzung geworden ist als noch vor wenigen Wochen. Während Anthropic jegliche geheimen Herabstufungen bestreitet, haben jüngste, dokumentierte Änderungen an den Einstellungen des Modells reichlich Öl ins Feuer geworfen.

Das Argument für Regression: Daten- und Entwicklerfrust

Die Kontroverse gewann durch hochkarätige technische Kritik und nicht nur anekdotische Beschwerden erheblich an Dynamik.

Einer der einflussreichsten Berichte stammte von Stella Laurenzo, einer Senior Director der AI-Gruppe von AMD. In einer detaillierten GitHub-Analyse untersuchte Laurenzo Tausende von Claude-Code-Sitzungsdateien und kam zu dem Schluss, dass die „Begründungstiefe“ des Modells seit Februar stark zurückgegangen war. Ihre Daten deuteten auf mehrere besorgniserregende Trends hin:
Vorzeitiger Aufgabenabbruch: Das Modell stoppt, bevor komplexe Anweisungen ausgeführt werden.
Tendenz zur „einfachsten Lösung“: Die Tendenz, eher einfache, oberflächliche Antworten als tiefgreifende technische Lösungen zu liefern.
Erhöhte Argumentationsschleifen: Das Modell bleibt bei der Wiederholung hängen.

Das war nicht nur ein Gefühl; Es war ein datengestütztes Argument dafür, dass Claudes „erweiterte Argumentation“ – genau das Merkmal, das es zu einem Premium-Tool macht – für die fortgeschrittene Technik zu schwinden schien.

„KI-Schrumpfflation“ und der Benchmark-Kampf

Der Begriff „KI-Schrumpfflation“ hat sich seitdem in den sozialen Medien verbreitet und beschreibt ein Phänomen, bei dem Benutzer den gleichen Abonnementpreis zahlen, aber ein „schwächeres“ Produkt erhalten.

Diese Erzählung wurde durch einen weit verbreiteten Benchmark von BridgeMind untermauert, der behauptete, die Genauigkeit von Claude Opus 4.6 bei Halluzinationstests sei von 83,3 % auf 68,3 % gesunken. Allerdings ist dieser „rauchende Beweis“ heftig umstritten. Unabhängige Forscher wie Paul Calcraft wiesen darauf hin, dass der Vergleich fehlerhaft sei:
– Der anfängliche Highscore basierte auf nur sechs Aufgaben.
– Die spätere niedrigere Punktzahl basierte auf 30 Aufgaben.
– Beim Vergleich derselben sechs Aufgaben war der Leistungsabfall tatsächlich marginal und lag wahrscheinlich im Bereich des statistischen Rauschens.

Auch wenn die Benchmark-Beweise möglicherweise überbewertet sind, zeigt die Debatte eine wachsende Spannung in der KI-Branche: Wie misst man die „Intelligenz“ eines Modells, das ständig aktualisiert wird?

Anthropics Verteidigung: Optimierung, nicht Degradierung

Die Führung von Anthropic hat schnell bestritten, dass sie das Modell „abschwächt“. Stattdessen argumentieren sie, dass es sich bei dem, was Benutzer als Downgrade wahrnehmen, tatsächlich um eine Reihe absichtlicher Produktoptimierungen handelt, die darauf abzielen, Intelligenz, Geschwindigkeit und Kosten in Einklang zu bringen.

Zu den wichtigsten Erklärungen von Anthropic gehören:
Adaptives Denken und Aufwandsstufen: Um zu verhindern, dass Benutzer Token zu schnell verbrennen, hat Anthropic Opus 4.6 standardmäßig auf „mittleren Aufwand“ (Aufwandsstufe 85) verschoben. Benutzer können sich manuell wieder für eine höhere Argumentation entscheiden, indem sie den Befehl „/effort high“ verwenden.
UI-Änderungen: Ein aktuelles Update, das „Denk“-Blöcke in der Benutzeroberfläche verbirgt, sollte die Latenz reduzieren und nicht die eigentliche Argumentation unter der Haube reduzieren.
Cache-Optimierung: Anthropic bestätigte, dass sie mit „promptem Caching“ experimentiert haben (wie lange sich die KI an frühere Teile eines Gesprächs erinnert). Änderungen an diesen Einstellungen sollten Kosten und Effizienz optimieren, obwohl einige Benutzer argumentieren, dass dadurch lange Sitzungen teurer geworden seien.

Warum das wichtig ist: Die Vertrauenslücke

Die Spannungen zwischen Anthropic und seinen Power-Usern werden durch eine umfassendere Realität verschärft: KI-Unternehmen bewältigen eine beispiellose Nachfrage.

Ende März gab Anthropic zu, die Nutzungslimits während der Spitzenzeiten angepasst zu haben, um die Kapazität zu verwalten. Obwohl sie dies als einen notwendigen Schritt zur Aufrechterhaltung des Dienstes darstellten, schuf es ein „Klima des Misstrauens“. Wenn ein Unternehmen zugibt, die Nutzungsgrenzen zu ändern, um die Nachfrage zu steuern, ist die Wahrscheinlichkeit größer, dass Benutzer glauben, dass jeder wahrgenommene Qualitätsverlust eine versteckte Möglichkeit ist, Rechenkosten zu sparen.

Das Fazit: Während Anthropic behauptet, dass es sich bei seinen Änderungen um transparente Optimierungen zur Verwaltung von Kosten und Latenz handelt, hat die Änderung der Standardeinstellungen eine spürbare Lücke zwischen der von den Benutzern erwarteten „High-Reasoning“-Erfahrung und der „effizienten“ Erfahrung, die sie derzeit erhalten, geschaffen.


Schlussfolgerung: Die Debatte über Claudes Leistung offenbart einen grundlegenden Konflikt im KI-Zeitalter: Da Modelle immer leistungsfähiger und teurer in der Ausführung werden, werden Anbieter unweigerlich versuchen, sie im Hinblick auf Effizienz zu optimieren, oft auf Kosten der „rohen“ Leistung, auf die professionelle Benutzer angewiesen sind.