OpenAI skomentowało dziwną cechę swoich sztucznych inteligencji: nieoczekiwaną tendencję do wspominania o goblinach, gremlinach, szopach i innych mitycznych stworzeniach. Po publikacji w magazynie Wired, która ujawniła, że istnieją szczegółowe instrukcje dla modelu kodu OpenAI mające na celu uniknięcie takich tematów, firma zamieściła szczegółowe wyjaśnienie na swojej stronie internetowej. Opisuje to zjawisko nie jako tradycyjną awarię (błąd), ale jako „dziwny nawyk”, który powstał w trakcie uczenia modelu.
Skąd wzięła się ta funkcja?
Problem pojawił się po raz pierwszy po wydaniu modelu GPT-5.1, szczególnie gdy użytkownicy włączyli ustawienie osobowości „Nerdy”. Początkowo odniesienia te pełniły funkcję metafor lub środków stylistycznych charakterystycznych dla tego konkretnego reżimu. Jednak w kolejnych wersjach modeli sytuacja się pogorszyła.
OpenAI odkryło, że proces uczenia się przez wzmacnianie przypadkowo sprzyjał stosowaniu tych niezwykłych metafor. Ponieważ uczenie się przez wzmacnianie nie ogranicza wyuczonych zachowań do ściśle określonych warunków, w których powstało, zaczął się rozprzestrzeniać styl „gadającego goblina”. Gdy określony styl wnioskowania zostanie pozytywnie oceniony, może on przeniknąć do innych aspektów zachowania modelu, zwłaszcza jeśli takie wnioski zostaną wykorzystane w późniejszym nadzorowanym dostrajaniu lub danych szkoleniowych preferencji.
Dlaczego instrukcje nie pomogły od razu
Chociaż OpenAI usunął w marcu personę „Nerdy”, znacznie zmniejszając częstotliwość takich wzmianek, problem nie zniknął całkowicie. Model GPT-5.5 używany w narzędziu do kodowania Codex w dalszym ciągu wykazywał takie zachowanie.
Powodem tej uporczywości jest to, że szkolenie GPT-5.5 rozpoczęło się przed zidentyfikowaniem pierwotnej przyczyny niepowodzenia. W rezultacie model zachował część wyuczonych trendów. Aby złagodzić ten problem, OpenAI zaimplementowało w Kodeksie specjalne instrukcje, które ukrywają odniesienia do stworzeń mitologicznych.
Kluczowy wniosek: odniesienia do Goblinów nie były zakodowane na stałe; powstały w wyniku dynamiki uczenia się modeli. To pokazuje, jak sygnały wzmacniające mogą powodować niezamierzone tiki stylistyczne, które utrzymują się nawet w nowych iteracjach modelu.
O możliwości personalizacji
Dla użytkowników, którzy uważają, że dane wyjściowe wolne od goblinów są zbyt suche i sterylne, OpenAI umożliwiło obejście tych szczegółowych instrukcji. Dzięki temu możesz przywrócić bardziej zabawny, jeśli nie całkowicie tradycyjny, styl interakcji, jeśli odpowiada Twoim preferencjom.
Wniosek
Incydent z „goblinami” uwydatnia wyzwanie, jakim jest dostosowanie zachowania sztucznej inteligencji do ludzkich oczekiwań. Wyraźnie pokazuje, jak niewielkie nagrody w danych szkoleniowych mogą prowadzić do nieprzewidywalnych wzorców zachowań, wymagających uważnego monitorowania i ukierunkowanych interwencji w celu utrzymania pożądanej jakości wyników.




























