Почему ИИ OpenAI постоянно упоминает гоблинов: объяснение «глючного» феномена

17

OpenAI прокомментировала странную особенность своих искусственных интеллектов: неожиданную склонность упоминать гоблинов, гремлин, енотов и других мифических существ. После публикации в журнале Wired, которая раскрыла факт наличия специальных инструкций для кодовой модели OpenAI с требованием избегать подобных тем, компания разместила на своем сайте подробное разъяснение. В нем этот феномен описывается не как традиционный сбой (баг), а как «странная привычка», возникшая в процессе обучения модели.

Откуда взялась эта особенность

Проблема впервые появилась после выпуска модели GPT-5.1, конкретно когда пользователи активировали настройку личности «Nerdy» (Гик/Нерд). Изначально эти отсылки выступали в качестве метафор или стилистических приемов, характерных именно для этого режима. Однако в последующих версиях моделей ситуация усугубилась.

Специалисты OpenAI выяснили, что процесс обучения с подкреплением (reinforcement learning) случайно поощрял эти необычные метафоры. Поскольку метод обучения с подкреплением не ограничивает усвоенное поведение строгими рамками условий, в которых оно возникло, стиль «говорящего гоблина» начал распространяться. Как только определенный стиль вывода получает положительную оценку, он может проникать в другие аспекты поведения модели, особенно если такие выводы используются при последующем тонкой настройке под руководством человека (supervised fine-tuning) или в данных для обучения предпочтениям.

Почему инструкции не помогли сразу

Хотя OpenAI удалила личность «Nerdy» в марте, что значительно снизило частоту подобных упоминаний, проблема не исчезла полностью. Модель GPT-5.5, используемая в инструменте для написания кода Codex, продолжала демонстрировать это поведение.

Причина такого упорства кроется в том, что обучение GPT-5.5 началось до того, как была выявлена коренная причина сбоя. В результате модель сохранила часть усвоенных тенденций. Чтобы смягчить проблему, OpenAI внедрила в Codex специальные инструкции, подавляющие отсылки к мифологическим существам.

Ключевой вывод: Отсылки к гоблинам не были прописаны в коде жестко; они возникли благодаря динамике обучения модели. Это демонстрирует, как сигналы подкрепления могут создавать непреднамеренные стилистические тики, которые сохраняются даже при переходе к новым итерациям модели.

О возможности кастомизации

Для пользователей, которым безгоблиный вывод кажется слишком сухим и стерильным, OpenAI предоставила способ отменить эти специфические инструкции. Это позволяет вернуть более игривый, хотя и не совсем традиционный, стиль взаимодействия, если это соответствует вашим предпочтениям.

Заключение

Инцидент с «гоблинами» подчеркивает сложность задачи по согласованию поведения ИИ с человеческими ожиданиями. Он наглядно показывает, как мелкие поощрения в обучающих данных могут приводить к непредсказуемым паттернам поведения, требуя тщательного мониторинга и точечных вмешательств для поддержания нужного качества вывода.