OpenAI erklärt den „Goblin“-Fehler in seinen KI-Modellen

4

OpenAI hat sich mit einer besonderen Eigenart seiner künstlichen Intelligenzsysteme befasst: einer unerwarteten Tendenz, sich auf Kobolde, Gremlins, Waschbären und andere Fabelwesen zu beziehen. Nach einem Bericht von Wired, in dem Anweisungen an das Codierungsmodell von OpenAI hervorgehoben wurden, diese Themen explizit zu vermeiden, veröffentlichte das Unternehmen eine ausführliche Erklärung auf seiner Website. Sie beschreiben das Phänomen nicht als einen Fehler im herkömmlichen Sinne, sondern als eine „seltsame Angewohnheit“, die sich während des Trainingsprozesses entwickelt habe.

Der Ursprung der Macke

Das Problem trat erstmals mit der Veröffentlichung des GPT-5.1-Modells auf, insbesondere als Benutzer die Persönlichkeitseinstellung „Nerdy“ aktivierten. Ursprünglich erschienen diese Referenzen als Metaphern oder stilistische Entscheidungen innerhalb dieses spezifischen Modus. Allerdings verschärfte sich das Problem in späteren Modellversionen.

OpenAI entdeckte, dass sein Reinforcement-Learning-Prozess diese skurrilen Metaphern versehentlich belohnte. Da Reinforcement Learning erlernte Verhaltensweisen nicht strikt auf die spezifischen Bedingungen beschränkt, die sie erzeugt haben, verbreitete sich der „Goblin“-Stil. Sobald ein bestimmter Ausgabestil belohnt wird, kann er sich auf andere Verhaltensbereiche des Modells auswirken, insbesondere wenn diese Ausgaben in überwachten Feinabstimmungs- oder Präferenzdaten wiederverwendet werden.

Warum die Anweisungen weiterhin bestehen blieben

Obwohl OpenAI im März die Persönlichkeit „Nerdy“ eingestellt hat – was die Häufigkeit dieser Verweise erheblich reduziert hat – ist das Problem nicht vollständig verschwunden. Das GPT-5.5-Modell, das im Codex-Codierungstool verwendet wird, zeigte immer noch dieses Verhalten.

Diese Persistenz trat auf, weil das Training für GPT-5.5 begann, bevor die Grundursache des Fehlers identifiziert wurde. Dadurch behielt das Modell einige der erlernten Tendenzen bei. Um dies zu mildern, hat OpenAI im Codex spezifische Anweisungen implementiert, um Verweise auf Fabelwesen zu unterdrücken.

Wichtige Erkenntnis: Die „Goblin“-Referenzen waren nicht fest codiert, sondern entstanden aus der Lerndynamik des Modells und zeigten, wie Verstärkungssignale unbeabsichtigte stilistische Tics erzeugen können, die über Modelliterationen hinweg bestehen bleiben.

Ein Hinweis zur Anpassung

Für Benutzer, denen die Kobold-freie Ausgabe zu steril erscheint, hat OpenAI eine Methode bereitgestellt, um diese spezifischen Anweisungen umzukehren. Dies ermöglicht auf Wunsch einen spielerischeren, wenn auch unkonventionelleren Interaktionsstil.

Fazit

Der „Goblin“-Vorfall verdeutlicht die Komplexität der Ausrichtung von KI-Modellen auf menschliche Erwartungen. Es unterstreicht, wie subtile Belohnungen in Trainingsdaten zu unerwarteten Verhaltensmustern führen können, die eine sorgfältige Überwachung und gezielte Interventionen erfordern, um die gewünschten Ausgabestandards aufrechtzuerhalten.