Los modelos de IA generativa, como ChatGPT, han revolucionado la forma en que interactuamos con la tecnología. Sin embargo, persiste un desafío importante: la tendencia a “alucinar”, es decir, presentar con seguridad información falsa como un hecho. Un estudio reciente de OpenAI, la compañía detrás de ChatGPT, ha identificado la razón principal de este comportamiento: Los modelos de IA están incentivados a adivinar en lugar de admitir que no saben.
La raíz del problema: incentivar las conjeturas
Actualmente, los métodos utilizados para evaluar el rendimiento del modelo de IA suelen premiar la precisión por encima de todo. Esto significa que los modelos se califican principalmente según el porcentaje de preguntas que responden correctamente, independientemente de su confianza o certeza. Los investigadores de OpenAI sostienen que esto crea un sistema en el que adivinar se convierte en una ventaja estratégica.
Es un poco como si un estudiante hiciera un examen de opción múltiple, explica el estudio. Dejar una pregunta en blanco no garantiza puntos, por lo que se les anima a realizar conjeturas descabelladas.
De manera similar, cuando los modelos de IA son penalizados solo por respuestas incorrectas, se les anima a predecir respuestas incluso cuando carecen de información suficiente. Esto les lleva a generar declaraciones que suenan plausibles pero, en última instancia, falsas.
Cómo “aprenden” los modelos de IA y por qué surgen las alucinaciones
Los modelos de IA aprenden prediciendo la siguiente palabra en una secuencia de texto, a partir de conjuntos de datos masivos. Si bien estos conjuntos de datos suelen contener patrones consistentes, también incluyen información aleatoria y contradictoria. Cuando se enfrentan a preguntas que son ambiguas o que carecen de respuestas definitivas (situaciones inherentemente caracterizadas por la incertidumbre), los modelos de IA frecuentemente recurren a conjeturas estratégicas para mejorar su puntuación de precisión general.
“Esa es una de las razones por las que, incluso a medida que los modelos se vuelven más avanzados, todavía pueden alucinar, dando con seguridad respuestas equivocadas en lugar de reconocer la incertidumbre”, señalan los investigadores.
Abordar el problema: recompensar la honestidad y la incertidumbre
Afortunadamente, está surgiendo una solución sencilla a este problema. Los investigadores sugieren penalizar más los “errores de confianza” que las expresiones de incertidumbre, y al mismo tiempo dar a los modelos crédito parcial por reconocer adecuadamente sus limitaciones.
Esto refleja una prueba estandarizada en la que se asignan calificaciones negativas a las respuestas incorrectas o se otorga crédito parcial por dejar las preguntas en blanco. Un sistema de este tipo desalentaría las conjeturas a ciegas e incentivaría a los modelos a expresar incertidumbre cuando sea apropiado.
Para abordar esto, OpenAI sugiere actualizar los métodos de evaluación actuales para la IA generativa. “Las evaluaciones basadas en la precisión, ampliamente utilizadas, deben actualizarse para que su puntuación desaliente las conjeturas”. Al desviar el enfoque de la precisión únicamente gratificante, los desarrolladores pueden allanar el camino para modelos de lenguaje más matizados que sean menos propensos a alucinaciones.
En conclusión, la tendencia de los modelos de IA a “alucinar” se debe a un sistema de evaluación defectuoso. Al incentivar la honestidad y reconocer la incertidumbre, podemos desarrollar una IA que sea poderosa y confiable. Este cambio es particularmente crítico a medida que la IA encuentra un uso cada vez mayor en campos como la medicina y el derecho, donde la precisión y la confiabilidad son primordiales.