OpenAI telah mengatasi kekhasan unik dalam sistem kecerdasan buatannya: kecenderungan tak terduga untuk merujuk pada goblin, gremlin, rakun, dan makhluk mitos lainnya. Menyusul laporan dari Wired yang menyoroti instruksi yang diberikan pada model pengkodean OpenAI untuk secara eksplisit menghindari topik ini, perusahaan menerbitkan penjelasan rinci di situs webnya. Mereka menggambarkan fenomena tersebut bukan sebagai bug dalam pengertian tradisional, namun sebagai “kebiasaan aneh” yang dikembangkan selama proses pelatihan.
Asal Usul Keunikan
Masalah ini pertama kali muncul dengan dirilisnya model GPT-5.1, khususnya saat pengguna menggunakan pengaturan kepribadian “Nerdy”. Awalnya, referensi ini muncul sebagai metafora atau pilihan gaya dalam mode spesifik tersebut. Namun, masalahnya semakin parah pada rilis model berikutnya.
OpenAI menemukan bahwa proses pembelajaran penguatannya secara tidak sengaja memberi penghargaan pada metafora unik ini. Karena pembelajaran penguatan tidak secara ketat membatasi perilaku yang dipelajari pada kondisi spesifik yang menghasilkan perilaku tersebut, gaya “goblin” menyebar. Setelah gaya keluaran tertentu diberi penghargaan, gaya tersebut dapat menyebar ke area lain dari perilaku model, terutama bila keluaran tersebut digunakan kembali dalam data preferensi atau penyesuaian yang diawasi.
Mengapa Instruksi Tetap Ada
Meskipun OpenAI menghentikan kepribadian “Nerdy” pada bulan Maret—yang secara signifikan mengurangi frekuensi referensi ini—masalah tersebut tidak hilang sepenuhnya. Model GPT-5.5, yang digunakan dalam alat pengkodean Codex, masih menunjukkan perilaku tersebut.
Persistensi ini terjadi karena pelatihan untuk GPT-5.5 dimulai sebelum akar penyebab error tersebut teridentifikasi. Hasilnya, model tersebut mempertahankan beberapa kecenderungan yang dipelajari. Untuk mengurangi hal ini, OpenAI menerapkan instruksi khusus di Codex untuk menyembunyikan referensi ke makhluk mitologi.
Wawasan Penting: Referensi “goblin” tidak dikodekan secara hardcode, namun muncul dari dinamika pembelajaran model, yang menunjukkan bagaimana sinyal penguatan dapat menciptakan gaya bahasa yang tidak diinginkan dan bertahan di seluruh iterasi model.
Catatan tentang Kustomisasi
Bagi pengguna yang menganggap keluaran bebas goblin terlalu steril, OpenAI telah menyediakan metode untuk membalikkan instruksi khusus ini. Hal ini memungkinkan gaya interaksi yang lebih menyenangkan, meskipun tidak konvensional, jika diinginkan.
Kesimpulan
Insiden “goblin” menyoroti kompleksitas dalam menyelaraskan model AI dengan harapan manusia. Hal ini menggarisbawahi bagaimana imbalan yang tidak kentara dalam data pelatihan dapat mengarah pada pola perilaku yang tidak terduga, sehingga memerlukan pemantauan yang cermat dan intervensi yang ditargetkan untuk mempertahankan standar keluaran yang diinginkan.
