OpenAI explica a falha do “Goblin” em seus modelos de IA

16

A OpenAI abordou uma peculiaridade peculiar em seus sistemas de inteligência artificial: uma tendência inesperada de fazer referência a goblins, gremlins, guaxinins e outras criaturas míticas. Após um relatório da Wired que destacou as instruções dadas ao modelo de codificação da OpenAI para evitar explicitamente esses tópicos, a empresa publicou uma explicação detalhada em seu site. Eles descrevem o fenômeno não como um bug no sentido tradicional, mas como um “hábito estranho” desenvolvido durante o processo de treinamento.

A Origem da Individualidade

O problema surgiu pela primeira vez com o lançamento do modelo GPT-5.1, especificamente quando os usuários adotaram a configuração de personalidade “Nerdy”. Inicialmente, essas referências apareceram como metáforas ou escolhas estilísticas dentro daquele modo específico. No entanto, o problema se intensificou nos lançamentos de modelos subsequentes.

A OpenAI descobriu que seu processo de aprendizagem por reforço recompensava inadvertidamente essas metáforas peculiares. Como a aprendizagem por reforço não limita estritamente os comportamentos aprendidos às condições específicas que os geraram, o estilo “goblin” se espalhou. Depois que um estilo de saída específico é recompensado, ele pode se espalhar para outras áreas do comportamento do modelo, especialmente quando essas saídas são reutilizadas em ajustes supervisionados ou dados de preferência.

Por que as instruções persistiram

Embora a OpenAI tenha descontinuado a personalidade “Nerdy” em março – o que reduziu significativamente a frequência dessas referências – o problema não desapareceu completamente. O modelo GPT-5.5, usado na ferramenta de codificação Codex, ainda exibia o comportamento.

Essa persistência ocorreu porque o treinamento para GPT-5.5 começou antes que a causa raiz da falha fosse identificada. Como resultado, o modelo manteve algumas das tendências aprendidas. Para mitigar isso, a OpenAI implementou instruções específicas no Codex para suprimir referências a criaturas mitológicas.

Insight principal: As referências ao “goblin” não foram codificadas, mas surgiram da dinâmica de aprendizagem do modelo, demonstrando como os sinais de reforço podem criar tiques estilísticos não intencionais que persistem nas iterações do modelo.

Uma nota sobre personalização

Para usuários que consideram a saída livre de goblins muito estéril, a OpenAI forneceu um método para reverter essas instruções específicas. Isso permite um estilo de interação mais lúdico, embora não convencional, se desejado.

Conclusão

O incidente do “goblin” destaca a complexidade de alinhar os modelos de IA com as expectativas humanas. Salienta como recompensas subtis nos dados de formação podem levar a padrões comportamentais inesperados, exigindo uma monitorização cuidadosa e intervenções direcionadas para manter os padrões de resultados desejados.