OpenAI прокомментировала странную особенность своих искусственных интеллектов: неожиданную склонность упоминать гоблинов, гремлин, енотов и других мифических существ. После публикации в журнале Wired, которая раскрыла факт наличия специальных инструкций для кодовой модели OpenAI с требованием избегать подобных тем, компания разместила на своем сайте подробное разъяснение. В нем этот феномен описывается не как традиционный сбой (баг), а как «странная привычка», возникшая в процессе обучения модели.
Откуда взялась эта особенность
Проблема впервые появилась после выпуска модели GPT-5.1, конкретно когда пользователи активировали настройку личности «Nerdy» (Гик/Нерд). Изначально эти отсылки выступали в качестве метафор или стилистических приемов, характерных именно для этого режима. Однако в последующих версиях моделей ситуация усугубилась.
Специалисты OpenAI выяснили, что процесс обучения с подкреплением (reinforcement learning) случайно поощрял эти необычные метафоры. Поскольку метод обучения с подкреплением не ограничивает усвоенное поведение строгими рамками условий, в которых оно возникло, стиль «говорящего гоблина» начал распространяться. Как только определенный стиль вывода получает положительную оценку, он может проникать в другие аспекты поведения модели, особенно если такие выводы используются при последующем тонкой настройке под руководством человека (supervised fine-tuning) или в данных для обучения предпочтениям.
Почему инструкции не помогли сразу
Хотя OpenAI удалила личность «Nerdy» в марте, что значительно снизило частоту подобных упоминаний, проблема не исчезла полностью. Модель GPT-5.5, используемая в инструменте для написания кода Codex, продолжала демонстрировать это поведение.
Причина такого упорства кроется в том, что обучение GPT-5.5 началось до того, как была выявлена коренная причина сбоя. В результате модель сохранила часть усвоенных тенденций. Чтобы смягчить проблему, OpenAI внедрила в Codex специальные инструкции, подавляющие отсылки к мифологическим существам.
Ключевой вывод: Отсылки к гоблинам не были прописаны в коде жестко; они возникли благодаря динамике обучения модели. Это демонстрирует, как сигналы подкрепления могут создавать непреднамеренные стилистические тики, которые сохраняются даже при переходе к новым итерациям модели.
О возможности кастомизации
Для пользователей, которым безгоблиный вывод кажется слишком сухим и стерильным, OpenAI предоставила способ отменить эти специфические инструкции. Это позволяет вернуть более игривый, хотя и не совсем традиционный, стиль взаимодействия, если это соответствует вашим предпочтениям.
Заключение
Инцидент с «гоблинами» подчеркивает сложность задачи по согласованию поведения ИИ с человеческими ожиданиями. Он наглядно показывает, как мелкие поощрения в обучающих данных могут приводить к непредсказуемым паттернам поведения, требуя тщательного мониторинга и точечных вмешательств для поддержания нужного качества вывода.
