«Нерфит» ли Anthropic модель Claude? Дискуссия о производительности ИИ и «шринкфляции» нейросетей

20

Среди разработчиков и продвинутых пользователей ИИ нарастает волна критики: многие обвиняют компанию Anthropic в намеренном ухудшении характеристик своих флагманских моделей, в частности Claude Opus 4.6 и Claude Code.

Обвинения варьируются от заявлений об «ИИ-шринкфляции» до теорий о преднамеренном ограничении мощности (троттлинге). Пользователи утверждают, что Claude стал менее способным, более склонным к ошибкам и более дорогим в использовании, чем еще несколько недель назад. Хотя Anthropic отрицает любые скрытые изменения в худшую сторону, недавние задокументированные изменения в настройках модели подлили масла в огонь.

Аргументы в пользу регрессии: данные и разочарование разработчиков

Поводом для серьезных споров послужили не просто разрозненные жалобы, а авторитетные технические анализы.

Одним из самых влиятельных отчетов стал доклад Стеллы Лоренцо, старшего директора группы ИИ в AMD. В детальном анализе на GitHub Лоренцо изучила тысячи файлов сессий Claude Code и пришла к выводу, что «глубина рассуждений» модели резко снизилась с февраля. Ее данные выявили несколько тревожных тенденций:
Преждевременный отказ от задач: модель прекращает работу до завершения сложных инструкций.
Предвзятость «самого простого решения»: склонность давать поверхностные ответы вместо глубоких инженерных решений.
Зацикливание рассуждений: модель застревает, повторяя одни и те же мысли.

Это не было просто субъективным ощущением; это был аргумент, подкрепленный данными о том, что «расширенное рассуждение» (extended reasoning) — та самая функция, которая делает Claude премиальным инструментом — постепенно деградирует.

«ИИ-шринкфляция» и битва бенчмарков

Термин «ИИ-шринкфляция» (AI shrinkflation) стал вирусным в социальных сетях. Он описывает феномен, при котором пользователи платят ту же цену за подписку, но получают «ослабленный» продукт.

Эту теорию подкрепил широко растиражированный бенчмарк от BridgeMind, согласно которому точность Claude Opus 4.6 в тестах на галлюцинации упала с 83,3% до 68,3%. Однако эти «неопровержимые доказательства» были подвергнуты жесткой критике. Независимые исследователи, такие как Пол Крак крафт, указали на ошибки в сравнении:
– Первоначальный высокий результат основывался всего на шести задачах.
– Последущий низкий результат основывался уже на 30 задачах.
– При сравнении одних и тех же шести задач падение производительности оказалось незначительным и, скорее всего, находится в пределах статистической погрешности.

Хотя данные бенчмарков могут быть преувеличены, дискуссия обнажает растущую проблему в индустрии ИИ: как измерить «интеллект» модели, которая постоянно обновляется?

Защита Anthropic: оптимизация, а не деградация

Руководство Anthropic поспешило опровергнуть обвинения в «нерфинге» (намеренном ослаблении) модели. Вместо этого они утверждают, что то, что пользователи воспринимают как ухудшение, на самом деле является серией преднамеренных оптимизаций продукта, направленных на баланс между интеллектом, скоростью и стоимостью.

Основные объяснения от Anthropic:
Адаптивное мышление и уровни усилий: Чтобы пользователи не расходовали токены слишком быстро, Anthropic по умолчанию перевела Opus 4.6 на режим «средних усилий» (уровень 85). Пользователи могут вручную вернуть высокий уровень рассуждений, используя команду /effort high.
Изменения интерфейса: Недавнее обновление, скрывающее блоки «размышлений» (thinking blocks) в интерфейсе, было призвано снизить задержку (latency), а не уменьшить реальную вычислительную мощность процесса.
Оптимизация кэширования: Anthropic подтвердила, что экспериментирует с «кэшированием промптов» (тем, как долго ИИ помнит предыдущие части диалога). Изменения в этих настройках были направлены на оптимизацию затрат и эффективности, хотя некоторые пользователи утверждают, что это сделало длительные сессии более дорогими.

Почему это важно: кризис доверия

Конфликт между Anthropic и продвинутыми пользователями усугубляется общим контекстом: ИИ-компании сталкиваются с беспрецедентным спросом.

В конце марта Anthropic признала, что корректирует лимиты использования в часы пик для управления нагрузкой. Хотя компания представила это как необходимую меру для поддержания работы сервиса, это создало «атмосферу подозрительности». Когда компания признает изменение лимитов для управления нагрузкой, пользователи склонны верить, что любое снижение качества — это скрытый способ сэкономить на вычислительных мощностях.

Суть дела: Несмотря на заявления Anthropic о том, что их изменения — это прозрачная оптимизация стоимости и скорости, смещение настроек по умолчанию создало ощутимый разрыв между тем «глубоким интеллектом», на который рассчитывали пользователи, и тем «эффективным» опытом, который они получают сейчас.


Заключение: Споры о производительности Claude обнажают фундаментальный конфликт в эпоху ИИ: по мере того как модели становятся мощнее и дороже в эксплуатации, провайдеры неизбежно будут стремиться оптимизировать их ради эффективности, зачастую в ущерб той «чистой» мощности, на которую полагаются профессионалы.