OpenAI a résolu une bizarrerie particulière dans ses systèmes d’intelligence artificielle : une tendance inattendue à faire référence aux gobelins, aux gremlins, aux ratons laveurs et à d’autres créatures mythiques. Suite à un rapport de Wired mettant en évidence les instructions données au modèle de codage d’OpenAI pour éviter explicitement ces sujets, la société a publié une explication détaillée sur son site Web. Ils décrivent le phénomène non pas comme un bug au sens traditionnel du terme, mais comme une « étrange habitude » développée au cours du processus de formation.
L’origine de l’alter
Le problème est apparu pour la première fois avec la sortie du modèle GPT-5.1, en particulier lorsque les utilisateurs ont activé le paramètre de personnalité “Nerdy”. Initialement, ces références apparaissaient comme des métaphores ou des choix stylistiques au sein de ce mode spécifique. Cependant, le problème s’est intensifié dans les versions ultérieures du modèle.
OpenAI a découvert que son processus d’apprentissage par renforcement récompensait par inadvertance ces métaphores originales. Parce que l’apprentissage par renforcement ne limite pas strictement les comportements appris aux conditions spécifiques qui les ont générés, le style « gobelin » s’est répandu. Une fois qu’un style de sortie spécifique est récompensé, il peut se répercuter sur d’autres domaines du comportement du modèle, en particulier lorsque ces sorties sont réutilisées dans des données de réglage ou de préférence supervisées.
Pourquoi les instructions ont persisté
Bien qu’OpenAI ait abandonné la personnalité « Nerdy » en mars, ce qui a considérablement réduit la fréquence de ces références, le problème n’a pas entièrement disparu. Le modèle GPT-5.5, utilisé dans l’outil de codage du Codex, présentait toujours ce comportement.
Cette persistance est due au fait que la formation pour GPT-5.5 a commencé avant que la cause première du problème ne soit identifiée. En conséquence, le modèle a conservé certaines des tendances apprises. Pour atténuer ce problème, OpenAI a implémenté des instructions spécifiques dans le Codex pour supprimer les références aux créatures mythologiques.
Point clé : Les références aux « gobelins » n’ont pas été codées en dur mais ont émergé de la dynamique d’apprentissage du modèle, démontrant comment les signaux de renforcement peuvent créer des tics stylistiques involontaires qui persistent à travers les itérations du modèle.
Une note sur la personnalisation
Pour les utilisateurs qui trouvent la sortie sans gobelin trop stérile, OpenAI a fourni une méthode pour inverser ces instructions spécifiques. Cela permet un style d’interaction plus ludique, quoique non conventionnel, si vous le souhaitez.
Conclusion
L’incident du « gobelin » met en évidence la complexité d’aligner les modèles d’IA sur les attentes humaines. Cela souligne à quel point les récompenses subtiles contenues dans les données de formation peuvent conduire à des modèles de comportement inattendus, nécessitant une surveillance minutieuse et des interventions ciblées pour maintenir les normes de résultat souhaitées.



























