OpenAI прокоментувала дивну особливість своїх штучних інтелектів: несподівану схильність згадувати гоблінів, гремлін, єнотів та інших міфічних істот. Після публікації в журналі Wired, яка розкрила факт наявності спеціальних інструкцій для кодової моделі OpenAI з вимогою уникати подібних тем, компанія розмістила на своєму сайті докладне роз’яснення. У ньому цей феномен описується не як традиційний збій (баг), бо як «дивна звичка», що виникла в процесі навчання моделі.
Звідки взялася ця особливість
Проблема вперше виникла після випуску моделі GPT-5.1, саме коли користувачі активували налаштування особи «Nerdy» (Гік/Нерд). Спочатку ці посилання виступали як метафори або стилістичні прийоми, характерні саме для цього режиму. Однак у наступних версіях моделей ситуація посилилася.
Фахівці OpenAI з’ясували, що процес навчання із підкріпленням (reinforcement learning) випадково заохочував ці незвичайні метафори. Оскільки метод навчання з підкріпленням не обмежує засвоєну поведінку строгими рамками умов, у яких вона виникла, стиль «гобліна, що говорить» почав поширюватися. Як тільки певний стиль виведення отримує позитивну оцінку, він може проникати в інші аспекти поведінки моделі, особливо якщо такі висновки використовуються при подальшому тонкому налаштуванні під керівництвом людини (supervised fine-tuning) або даних для навчання перевагам.
Чому інструкції не допомогли відразу
Хоча OpenAI видалила особистість Nerdy у березні, що значно знизило частоту подібних згадок, проблема не зникла повністю. Модель GPT-5.5, яка використовується в інструменті для написання коду Codex, продовжувала демонструвати цю поведінку.
Причина такої завзятості полягає в тому, що навчання GPT-5.5 почалося до того, як було виявлено корінну причину збою. В результаті модель зберегла частину засвоєних тенденцій. Щоб пом’якшити проблему, OpenAI впровадила в Codex спеціальні інструкції, що пригнічують посилання на міфологічним істотам.
Ключовий висновок: Відсилки до гоблінів були прописані в коді жорстко; вони з’явилися завдяки динаміці навчання моделі. Це показує, як сигнали підкріплення можуть створювати ненавмисні стилістичні тики, які зберігаються навіть при переході до нових ітерацій моделі.
Про можливість кастомізації
Для користувачів, яким безгобліний висновок видається надто сухим та стерильним, OpenAI надала спосіб скасувати ці специфічні інструкції. Це дозволяє повернути грайливіший, хоч і не зовсім традиційний, стиль взаємодії, якщо це відповідає вашим уподобанням.
Висновок
Інцидент з «гоблінами» наголошує на складності завдання щодо узгодження поведінки ІІ з людськими очікуваннями. Він наочно показує, як дрібні заохочення у навчальних даних можуть призводити до непередбачуваних патерн поведінки, вимагаючи ретельного моніторингу та точкових втручань для підтримки потрібної якості висновку.
