OpenAI ha affrontato una peculiare peculiarità dei suoi sistemi di intelligenza artificiale: un’inaspettata tendenza a fare riferimento a goblin, gremlin, procioni e altre creature mitiche. A seguito di un rapporto di Wired che evidenziava le istruzioni fornite al modello di codifica di OpenAI per evitare esplicitamente questi argomenti, la società ha pubblicato una spiegazione dettagliata sul suo sito web. Descrivono il fenomeno non come un bug nel senso tradizionale, ma come una “strana abitudine” sviluppata durante il processo di formazione.
L’origine del Quirk
Il problema è emerso per la prima volta con il rilascio del modello GPT-5.1, in particolare quando gli utenti utilizzavano l’impostazione della personalità “Nerdy”. Inizialmente questi riferimenti apparivano come metafore o scelte stilistiche all’interno di quella specifica modalità. Tuttavia, il problema si è intensificato nelle successive versioni dei modelli.
OpenAI ha scoperto che il suo processo di apprendimento per rinforzo premiava inavvertitamente queste bizzarre metafore. Poiché l’apprendimento per rinforzo non limita strettamente i comportamenti appresi alle condizioni specifiche che li hanno generati, si è diffuso lo stile “goblin”. Una volta che uno specifico stile di output viene premiato, può estendersi ad altre aree del comportamento del modello, soprattutto quando tali output vengono riutilizzati in dati di regolazione o preferenza supervisionati.
Perché le istruzioni persistevano
Sebbene OpenAI abbia interrotto la personalità “Nerdy” a marzo, riducendo significativamente la frequenza di questi riferimenti, il problema non è scomparso del tutto. Il modello GPT-5.5, utilizzato all’interno dello strumento di codifica Codex, mostrava ancora lo stesso comportamento.
Questa persistenza si è verificata perché l’addestramento per GPT-5.5 è iniziato prima che fosse identificata la causa principale del problema tecnico. Di conseguenza, il modello ha mantenuto alcune delle tendenze apprese. Per mitigare questo problema, OpenAI ha implementato istruzioni specifiche nel Codex per sopprimere i riferimenti alle creature mitologiche.
Approfondimento chiave: i riferimenti ai “goblin” non erano codificati ma sono emersi dalle dinamiche di apprendimento del modello, dimostrando come i segnali di rinforzo possono creare tic stilistici non intenzionali che persistono attraverso le iterazioni del modello.
Una nota sulla personalizzazione
Per gli utenti che trovano l’output privo di goblin troppo sterile, OpenAI ha fornito un metodo per invertire queste istruzioni specifiche. Ciò consente, se lo si desidera, uno stile di interazione più giocoso, anche se non convenzionale.
Conclusione
L’incidente del “goblin” evidenzia la complessità dell’allineamento dei modelli di intelligenza artificiale con le aspettative umane. Sottolinea come sottili ricompense nei dati di addestramento possano portare a modelli comportamentali inaspettati, che richiedono un attento monitoraggio e interventi mirati per mantenere gli standard di output desiderati.




























