Un nuevo estudio de investigación de OpenAI indaga sobre por qué los modelos de lenguaje extenso, como GPT-4, y los chatbots, caso de ChatGPT, continúan experimentando alucinaciones, y si realmente se puede hacer algo para mitigar sustancialmente estos fenómenos.
En una entrada de blog que sintetiza el informe, OpenAI define las alucinaciones como “afirmaciones verosímiles pero incorrectas generadas por los modelos lingüísticos”, y admite que, pese a las mejoras, estas “siguen constituyendo un desafío primordial para todos los modelos de lenguaje a gran escala”, uno que jamás podrá ser erradicado por completo.
Para ejemplificar este asunto, los investigadores relatan que, al interrogar a “un chatbot de uso generalizado” acerca del título de la tesis doctoral de Adam Tauman Kalai, obtubieron tres respuestas distintas, todas ellas erróneas. (Kalai es uno de los autores del artículo). Posteriormente, preguntaron sobre su fecha de nacimiento y recibieron tres fechas diferentes. De nuevo, todas resultaron ser incorrectas.
¿Cómo puede un chatbot ser tan impreciso y, a la vez, mostrarse tan seguro de su información equivocada? Los investigadores proponen que las alucinaciones surgen, en parte, debido a un proceso de entrenamiento previo centrado en conseguir que los modelos predigan acertadamente la próxima palabra, sin etiquetas de veracidad adjuntas a los enunciados de entrenamiento: “El modelo únicamente observa ejemplos positivos de lenguaje fluido y debe inferir la distribución general”.
“La ortografía y los paréntesis siguen patrones consistentes, por lo cual los errores en esos ámbitos se minimizan con el escalado”, exponen. “No obstante, los datos arbitrarios de baja frecuencia, como la fecha de cumpleaños de una mascota, no pueden predecirse basándose solo en patrones y, en consecuencia, propician la aparición de alucinaciones”.
Sin embargo, la principal contribución del artículo se centra menos en el proceso de entrenamiento en sí y más en cómo se evalúan los modelos de lenguaje de gran tamaño. Se arguye que los actuales modelos de evaluación no provocan directamente las alucinaciones, pero “establecen incentivos inadecuados”.
Los investigadores equiparan estas evaluaciones con los exámenes de opción múltiple, en los que adivinar aleatoriamente resulta lógico, puesto que “existe la posibilidad de acertar por azar”, mientras que dejar la respuesta en blanco “garantiza un cero”.
Evento de TechCrunch
San Francisco
|
27-29 de octubre de 2025
“De forma análoga, cuando los modelos se califican exclusivamente por su precisión —el porcentaje de preguntas que contestan de manera impecable— se les incentiva a conjeturar en vez de admitir ‘no lo sé’”, sostienen.
La solución propuesta, por tanto, es semejante a la de pruebas (como el SAT) que incorporan “penalizaciones por respuestas incorrectas o crédito parcial por omitir contestaciones, con el fin de desincentivar las conjeturas a ciegas”. Del mismo modo, OpenAI afirma que las evaluaciones de los modelos deben “sancionar los errores cometidos con seguridad más severamente que la incertidumbre, y otorgar crédito parcial por las expresiones apropiadas de duda”.
Y los investigadores argumentan que no basta con introducir “algunas métricas novedosas que tengan en cuenta la incertidumbre”. Por el contrario, “las evaluaciones de precisión, ampliamente utilizadas, deben actualizarse para que su sistema de puntuación desaliente la adivinanza”.
“Si los benchmarks principales continúan premiando las conjeturas afortunadas, los modelos seguirán aprendiendo a adivinar”, advierten los investigadores.
