Uma tempestade crescente de críticas está se formando entre desenvolvedores e usuários avançados de IA, com muitos acusando a Anthropic de degradar intencionalmente o desempenho de seus principais modelos, especificamente Claude Opus 4.6 e Claude Code.
As acusações – que vão desde alegações de “encolhimento da IA” até teorias de limitação intencional – sugerem que Claude se tornou menos capaz, mais sujeito a erros e mais caro de usar do que era há apenas algumas semanas. Embora a Anthropic negue quaisquer rebaixamentos secretos, mudanças recentes e documentadas nas configurações do modelo forneceram bastante combustível para o incêndio.
O caso da regressão: frustração de dados e desenvolvedores
A controvérsia ganhou impulso significativo através de críticas técnicas de alto nível, em vez de meras reclamações anedóticas.
Um dos relatórios mais influentes veio de Stella Laurenzo, diretora sênior do grupo de IA da AMD. Em uma análise detalhada do GitHub, Laurenzo examinou milhares de arquivos de sessão do Claude Code e concluiu que a “profundidade de raciocínio” do modelo havia caído drasticamente desde fevereiro. Seus dados sugeriram várias tendências preocupantes:
– Abandono prematuro de tarefas: O modelo para antes de concluir instruções complexas.
– Viés de “solução mais simples”: Uma tendência a fornecer respostas fáceis e superficiais em vez de soluções de engenharia profundas.
– Aumento dos ciclos de raciocínio: O modelo fica preso na repetição.
Isto não foi apenas um sentimento; era um argumento baseado em dados que, para a engenharia avançada, o “raciocínio ampliado” de Claude – o próprio recurso que o torna uma ferramenta premium – parecia estar se desgastando.
“AI Shrinkflation” e a batalha de benchmark
Desde então, o termo “redução da inflação de IA” se tornou viral nas redes sociais, descrevendo um fenômeno em que os usuários pagam o mesmo preço de assinatura, mas recebem um produto “mais fraco”.
Esta narrativa foi reforçada por um benchmark amplamente compartilhado da BridgeMind, que afirmou que a precisão do Claude Opus 4.6 em testes de alucinação caiu de 83,3% para 68,3%. No entanto, esta “arma fumegante” tem sido fortemente contestada. Pesquisadores independentes, como Paul Calcraft, apontaram que a comparação era falha:
– A pontuação inicial alta foi baseada em apenas seis tarefas.
– A pontuação mais baixa posterior foi baseada em 30 tarefas.
– Ao comparar as mesmas seis tarefas, a queda no desempenho foi, na verdade, marginal e provavelmente dentro do domínio do ruído estatístico.
Embora as evidências de referência possam ser exageradas, o debate destaca uma tensão crescente na indústria de IA: Como medir a “inteligência” de um modelo que está em constante atualização?
Defesa Antrópica: Otimização, Não Degradação
A liderança da Anthropic tem sido rápida em negar que esteja “nerfando” o modelo. Em vez disso, eles argumentam que o que os usuários percebem como um downgrade é, na verdade, uma série de otimizações deliberadas de produtos projetadas para equilibrar inteligência, velocidade e custo.
As principais explicações da Antrópico incluem:
– Pensamento adaptativo e níveis de esforço: Para evitar que os usuários queimem tokens muito rapidamente, a Anthropic mudou o Opus 4.6 para “esforço médio” (nível de esforço 85) por padrão. Os usuários podem optar manualmente por um raciocínio superior usando o comando /effort high.
– Alterações na interface: Uma atualização recente que oculta blocos de “pensamento” na interface tinha como objetivo reduzir a latência, e não reduzir o raciocínio real que acontece nos bastidores.
– Otimização de cache: A Anthropic confirmou que está experimentando o “cache imediato” (por quanto tempo a IA se lembra das partes anteriores de uma conversa). As alterações nessas configurações tiveram como objetivo otimizar custos e eficiência, embora alguns usuários argumentem que isso tornou as sessões longas mais caras.
Por que isso é importante: a lacuna de confiança
O atrito entre a Anthropic e seus usuários avançados é exacerbado por uma realidade mais ampla: As empresas de IA estão gerenciando uma demanda sem precedentes.
No final de março, a Anthropic admitiu ajustar os limites de uso durante os horários de pico para gerenciar a capacidade. Embora tenham enquadrado isso como uma etapa necessária para manter o serviço funcionando, criou um “clima de suspeita”. Quando uma empresa admite alterar os limites de utilização para gerir a procura, os utilizadores tornam-se muito mais propensos a acreditar que qualquer queda percebida na qualidade é uma forma oculta de poupar nos custos de computação.
Conclusão: Embora a Anthropic afirme que suas mudanças são otimizações transparentes para gerenciar custos e latência, a mudança nas configurações padrão criou uma lacuna tangível entre a experiência de “alto raciocínio” esperada pelos usuários e a experiência “eficiente” que eles estão recebendo atualmente.
Conclusão: O debate sobre o desempenho de Claude revela um conflito fundamental na era da IA: à medida que os modelos se tornam mais poderosos e caros de executar, os fornecedores procurarão inevitavelmente otimizá-los para obter eficiência, muitas vezes à custa do poder “bruto” de que dependem os utilizadores profissionais.



























