OpenAI explica el fallo “Goblin” en sus modelos de IA

25

OpenAI ha abordado una peculiaridad de sus sistemas de inteligencia artificial: una tendencia inesperada a hacer referencia a duendes, duendes, mapaches y otras criaturas míticas. Tras un informe de Wired que destacaba las instrucciones dadas al modelo de codificación de OpenAI para evitar explícitamente estos temas, la empresa publicó una explicación detallada en su sitio web. Describen el fenómeno no como un error en el sentido tradicional, sino como un “hábito extraño” desarrollado durante el proceso de entrenamiento.

El origen del capricho

El problema surgió por primera vez con el lanzamiento del modelo GPT-5.1, específicamente cuando los usuarios activaban la configuración de personalidad “Nerdy”. Inicialmente, estas referencias aparecieron como metáforas o elecciones estilísticas dentro de ese modo específico. Sin embargo, el problema se intensificó en los lanzamientos de modelos posteriores.

OpenAI descubrió que su proceso de aprendizaje por refuerzo recompensaba sin darse cuenta estas extravagantes metáforas. Debido a que el aprendizaje por refuerzo no limita estrictamente las conductas aprendidas a las condiciones específicas que las generaron, se extendió el estilo “duende”. Una vez que se recompensa un estilo de salida específico, puede extenderse a otras áreas del comportamiento del modelo, especialmente cuando esas salidas se reutilizan en datos de preferencias o ajustes supervisados.

Por qué persistieron las instrucciones

Aunque OpenAI eliminó la personalidad “Nerdy” en marzo, lo que redujo significativamente la frecuencia de estas referencias, el problema no desapareció por completo. El modelo GPT-5.5, utilizado dentro de la herramienta de codificación Codex, aún presentaba este comportamiento.

Esta persistencia se produjo porque el entrenamiento para GPT-5.5 comenzó antes de que se identificara la causa raíz del problema. Como resultado, el modelo retuvo algunas de las tendencias aprendidas. Para mitigar esto, OpenAI implementó instrucciones específicas en el Codex para suprimir las referencias a criaturas mitológicas.

Información clave: Las referencias al “duende” no estaban codificadas, sino que surgieron de la dinámica de aprendizaje del modelo, lo que demuestra cómo las señales de refuerzo pueden crear tics estilísticos no deseados que persisten a lo largo de las iteraciones del modelo.

Una nota sobre la personalización

Para los usuarios que consideran que la salida sin duendes es demasiado estéril, OpenAI ha proporcionado un método para revertir estas instrucciones específicas. Esto permite un estilo de interacción más divertido, aunque poco convencional, si se desea.

Conclusión

El incidente del “duende” pone de relieve la complejidad de alinear los modelos de IA con las expectativas humanas. Subraya cómo las recompensas sutiles en los datos de capacitación pueden conducir a patrones de comportamiento inesperados, que requieren un seguimiento cuidadoso e intervenciones específicas para mantener los estándares de resultados deseados.