Se está gestando una creciente tormenta de críticas entre los desarrolladores y usuarios avanzados de IA, y muchos acusan a Anthropic de degradar intencionalmente el rendimiento de sus modelos insignia, específicamente Claude Opus 4.6 y Claude Code.
Las acusaciones, que van desde afirmaciones de “contrainflación de la IA” hasta teorías de limitación intencional, sugieren que Claude se ha vuelto menos capaz, más propenso a errores y más costoso de usar que hace apenas unas semanas. Si bien Anthropic niega cualquier degradación secreta, los cambios recientes y documentados en la configuración del modelo han proporcionado mucho combustible para el fuego.
El caso de la regresión: los datos y la frustración de los desarrolladores
La controversia cobró un impulso significativo a través de críticas técnicas de alto perfil en lugar de meras quejas anecdóticas.
Uno de los informes más influyentes provino de Stella Laurenzo, directora sénior del grupo de IA de AMD. En un análisis detallado de GitHub, Laurenzo examinó miles de archivos de sesión de Claude Code y concluyó que la “profundidad de razonamiento” del modelo había disminuido drásticamente desde febrero. Sus datos sugirieron varias tendencias preocupantes:
– Abandono prematuro de tarea: El modelo se detiene antes de completar instrucciones complejas.
– Sesgo de “solución más simple”: Una tendencia a proporcionar respuestas fáciles y superficiales en lugar de soluciones de ingeniería profundas.
– Aumento de bucles de razonamiento: El modelo se atasca repitiéndose.
Esto no era sólo un sentimiento; fue un argumento basado en datos de que para la ingeniería avanzada, el “razonamiento extendido” de Claude (la característica misma que lo convierte en una herramienta premium) parecía estar erosionándose.
“Contracción de la IA” y la batalla de los índices de referencia
Desde entonces, el término “contracción de la IA” se ha vuelto viral en las redes sociales y describe un fenómeno en el que los usuarios pagan el mismo precio de suscripción pero reciben un producto “más débil”.
Esta narrativa se vio reforzada por un punto de referencia ampliamente compartido de BridgeMind, que afirmaba que la precisión de Claude Opus 4.6 en las pruebas de alucinaciones se había desplomado del 83,3% al 68,3%. Sin embargo, esta “prueba irrefutable” ha sido fuertemente cuestionada. Investigadores independientes, como Paul Calcraft, señalaron que la comparación era errónea:
– La puntuación alta inicial se basó en sólo seis tareas.
– La puntuación más baja posterior se basó en 30 tareas.
– Al comparar las mismas seis tareas, la caída del rendimiento fue en realidad marginal y probablemente dentro del ámbito del ruido estadístico.
Si bien la evidencia comparativa puede ser exagerada, el debate resalta una tensión creciente en la industria de la IA: ¿Cómo se mide la “inteligencia” de un modelo que se actualiza constantemente?
La defensa de Anthropic: optimización, no degradación
El liderazgo de Anthropic se ha apresurado a negar que estén “nerfeando” el modelo. En cambio, argumentan que lo que los usuarios perciben como una degradación es en realidad una serie de optimizaciones deliberadas del producto diseñadas para equilibrar la inteligencia, la velocidad y el costo.
Las explicaciones clave de Anthropic incluyen:
– Pensamiento adaptativo y niveles de esfuerzo: Para evitar que los usuarios quemen tokens demasiado rápido, Anthropic movió Opus 4.6 a “esfuerzo medio” (nivel de esfuerzo 85) de forma predeterminada. Los usuarios pueden volver a optar manualmente por un razonamiento superior utilizando el comando /effort high.
– Cambios en la interfaz de usuario: Una actualización reciente que oculta bloques de “pensamiento” en la interfaz tenía como objetivo reducir la latencia, no reducir el razonamiento real que ocurre bajo el capó.
– Optimización de caché: Anthropic confirmó que han estado experimentando con “almacenamiento en caché rápido” (cuánto tiempo recuerda la IA las partes anteriores de una conversación). Los cambios en estas configuraciones tenían como objetivo optimizar los costos y la eficiencia, aunque algunos usuarios argumentan que esto ha encarecido las sesiones largas.
Por qué esto importa: la brecha de confianza
La fricción entre Anthropic y sus usuarios avanzados se ve exacerbada por una realidad más amplia: Las empresas de IA están gestionando una demanda sin precedentes.
A finales de marzo, Anthropic admitió haber ajustado los límites de uso durante las horas pico para gestionar la capacidad. Si bien enmarcaron esto como un paso necesario para mantener el servicio en funcionamiento, creó un “clima de sospecha”. Cuando una empresa admite haber cambiado los límites de uso para gestionar la demanda, es mucho más probable que los usuarios crean que cualquier caída percibida en la calidad es una forma oculta de ahorrar en costos informáticos.
Conclusión: Si bien Anthropic sostiene que sus cambios son optimizaciones transparentes para administrar los costos y la latencia, el cambio en la configuración predeterminada ha creado una brecha tangible entre la experiencia de “alto razonamiento” que los usuarios esperaban y la experiencia “eficiente” que están recibiendo actualmente.
Conclusión: El debate sobre el desempeño de Claude revela un conflicto fundamental en la era de la IA: a medida que los modelos se vuelven más poderosos y costosos de ejecutar, los proveedores inevitablemente buscarán optimizarlos para lograr eficiencia, a menudo a expensas de la potencia “bruta” de la que dependen los usuarios profesionales.



























