Apakah Claude Antropis “Nerfing”? Perdebatan Mengenai Kinerja AI dan “Penyusutan”

10

Badai kritik semakin meningkat di kalangan pengembang dan pengguna AI, dengan banyak yang menuduh Anthropic sengaja menurunkan kinerja model andalannya, khususnya Claude Opus 4.6 dan Claude Code.

Tuduhan tersebut—mulai dari klaim “penyusutan AI” hingga teori pembatasan yang disengaja—menunjukkan bahwa Claude menjadi kurang mampu, lebih rentan terhadap kesalahan, dan lebih mahal untuk digunakan dibandingkan beberapa minggu yang lalu. Meskipun Anthropic menyangkal adanya penurunan peringkat secara rahasia, perubahan terbaru yang terdokumentasi pada pengaturan model telah memberikan banyak bahan bakar untuk memicu kebakaran.

Kasus Regresi: Frustrasi Data dan Pengembang

Kontroversi ini mendapatkan momentum yang signifikan melalui kritik teknis tingkat tinggi dan bukan sekadar keluhan yang bersifat anekdot.

Salah satu laporan paling berpengaruh datang dari Stella Laurenzo, Senior Director di grup AI AMD. Dalam analisis GitHub yang mendetail, Laurenzo memeriksa ribuan file sesi Claude Code dan menyimpulkan bahwa “kedalaman penalaran” model tersebut telah menurun tajam sejak Februari. Datanya menunjukkan beberapa tren yang meresahkan:
Pengabaian tugas prematur: Model berhenti sebelum menyelesaikan instruksi kompleks.
Bias “perbaikan paling sederhana”: Kecenderungan untuk memberikan jawaban yang mudah dan dangkal dibandingkan solusi teknis yang mendalam.
Peningkatan putaran penalaran: Model terhenti saat berulang.

Ini bukan sekedar perasaan; Argumen yang didasari oleh data adalah bahwa untuk rekayasa tingkat lanjut, “penalaran yang diperluas” dari Claude—fitur yang membuatnya menjadi alat premium—tampaknya mulai terkikis.

“Penyusutan AI” dan Pertarungan Tolok Ukur

Istilah “penyusutan AI” kemudian menjadi viral di media sosial, menggambarkan fenomena di mana pengguna membayar harga berlangganan yang sama tetapi menerima produk yang “lebih lemah”.

Narasi ini didukung oleh tolok ukur yang dibagikan secara luas dari BridgeMind, yang mengklaim akurasi Claude Opus 4.6 dalam tes halusinasi turun drastis dari 83,3% menjadi 68,3%. Namun, “senjata merokok” ini telah banyak diperdebatkan. Peneliti independen, seperti Paul Calcraft, menunjukkan bahwa perbandingan tersebut memiliki kelemahan:
– Skor tinggi awal hanya didasarkan pada enam tugas.
– Skor yang lebih rendah kemudian didasarkan pada 30 tugas.
– Saat membandingkan enam tugas yang sama, penurunan kinerja sebenarnya kecil dan mungkin berada dalam lingkup gangguan statistik.

Meskipun bukti acuan mungkin terlalu dilebih-lebihkan, perdebatan ini menyoroti meningkatnya ketegangan dalam industri AI: Bagaimana Anda mengukur “kecerdasan” suatu model yang terus diperbarui?

Pertahanan Antropis: Optimasi, Bukan Degradasi

Kepemimpinan Anthropic dengan cepat menyangkal bahwa mereka “mengganggu” model tersebut. Sebaliknya, mereka berpendapat bahwa apa yang pengguna anggap sebagai penurunan versi sebenarnya adalah serangkaian pengoptimalan produk yang disengaja yang dirancang untuk menyeimbangkan kecerdasan, kecepatan, dan biaya.

Penjelasan utama dari Anthropic meliputi:
Tingkat Pemikiran & Upaya Adaptif: Untuk mencegah pengguna menggunakan token terlalu cepat, Anthropic memindahkan Opus 4.6 ke “usaha menengah” (tingkat upaya 85) secara default. Pengguna dapat secara manual memilih kembali ke penalaran yang lebih tinggi dengan menggunakan perintah /effort high.
Perubahan UI: Pembaruan terkini yang menyembunyikan blok “berpikir” di antarmuka dimaksudkan untuk mengurangi latensi, bukan untuk mengurangi alasan sebenarnya yang terjadi.
Optimasi Cache: Anthropic mengonfirmasi bahwa mereka telah bereksperimen dengan “prompt caching” (berapa lama AI mengingat bagian percakapan sebelumnya). Perubahan pada pengaturan ini dimaksudkan untuk mengoptimalkan biaya dan efisiensi, meskipun beberapa pengguna berpendapat bahwa hal ini membuat sesi yang panjang menjadi lebih mahal.

Mengapa Ini Penting: Kesenjangan Kepercayaan

Gesekan antara Anthropic dan pengguna listriknya diperburuk oleh kenyataan yang lebih luas: Perusahaan AI mengelola permintaan yang belum pernah terjadi sebelumnya.

Pada akhir Maret lalu, Anthropic mengaku menyesuaikan batas penggunaan pada jam sibuk untuk mengatur kapasitas. Meskipun mereka menganggap hal ini sebagai langkah penting untuk menjaga layanan tetap berjalan, hal ini menciptakan “iklim kecurigaan”. Ketika sebuah perusahaan mengakui mengubah batas penggunaan untuk mengelola permintaan, pengguna akan semakin percaya bahwa penurunan kualitas apa pun adalah cara tersembunyi untuk menghemat biaya komputasi.

Intinya: Meskipun Anthropic menyatakan bahwa perubahannya merupakan pengoptimalan transparan untuk mengelola biaya dan latensi, perubahan dalam pengaturan default telah menciptakan kesenjangan nyata antara pengalaman “beralasan tinggi” yang diharapkan pengguna dan pengalaman “efisien” yang mereka terima saat ini.


Kesimpulan: Perdebatan mengenai kinerja Claude mengungkap konflik mendasar di era AI: ketika model menjadi lebih kuat dan mahal untuk dijalankan, penyedia layanan pasti akan berupaya mengoptimalkannya demi efisiensi, sering kali dengan mengorbankan kekuatan “mentah” yang diandalkan oleh pengguna profesional.