OpenAI heeft een eigenaardige eigenaardigheid in zijn kunstmatige-intelligentiesystemen aangepakt: een onverwachte neiging om te verwijzen naar goblins, gremlins, wasberen en andere mythische wezens. Na een rapport van Wired waarin de instructies werden benadrukt die aan het codeermodel van OpenAI werden gegeven om deze onderwerpen expliciet te vermijden, publiceerde het bedrijf een gedetailleerde uitleg op zijn website. Ze beschrijven het fenomeen niet als een bug in de traditionele zin van het woord, maar als een ‘vreemde gewoonte’ die tijdens het trainingsproces is ontwikkeld.
De oorsprong van de eigenaardigheid
Het probleem kwam voor het eerst naar voren met de release van het GPT-5.1-model, vooral toen gebruikers de “Nerdy”-persoonlijkheidsinstelling gebruikten. Aanvankelijk verschenen deze verwijzingen als metaforen of stilistische keuzes binnen die specifieke modus. Het probleem werd echter groter bij daaropvolgende modelreleases.
OpenAI ontdekte dat zijn versterkende leerproces onbedoeld deze eigenzinnige metaforen beloonde. Omdat versterkend leren het aangeleerde gedrag niet strikt beperkt tot de specifieke omstandigheden die het hebben gegenereerd, verspreidde de “goblin” -stijl zich. Zodra een specifieke uitvoerstijl wordt beloond, kan deze doordringen in andere gebieden van het gedrag van het model, vooral wanneer die uitvoer wordt hergebruikt in gecontroleerde verfijning of voorkeursgegevens.
Waarom de instructies bleven bestaan
Hoewel OpenAI in maart stopte met de ‘Nerdy’-persoonlijkheid – waardoor de frequentie van deze verwijzingen aanzienlijk verminderde – verdween het probleem niet helemaal. Het GPT-5.5-model, gebruikt in de Codex-coderingstool, vertoonde nog steeds dit gedrag.
Deze persistentie vond plaats omdat de training voor GPT-5.5 begon voordat de hoofdoorzaak van de storing was geïdentificeerd. Als gevolg hiervan behield het model enkele van de aangeleerde tendensen. Om dit te verzachten heeft OpenAI specifieke instructies in Codex geïmplementeerd om verwijzingen naar mythologische wezens te onderdrukken.
Belangrijkste inzicht: De “goblin”-referenties waren niet hardgecodeerd, maar kwamen voort uit de leerdynamiek van het model, wat aantoont hoe versterkingssignalen onbedoelde stilistische tics kunnen creëren die blijven bestaan in modeliteraties.
Een opmerking over maatwerk
Voor gebruikers die de goblin-vrije uitvoer te steriel vinden, heeft OpenAI een methode geboden om deze specifieke instructies om te keren. Dit zorgt indien gewenst voor een meer speelse, zij het onconventionele, interactiestijl.
Conclusie
Het ‘goblin’-incident benadrukt de complexiteit van het afstemmen van AI-modellen op menselijke verwachtingen. Het onderstreept hoe subtiele beloningen in trainingsgegevens kunnen leiden tot onverwachte gedragspatronen, die zorgvuldige monitoring en gerichte interventies vereisen om de gewenste outputnormen te handhaven.




























