Los modelos de inteligencia artificial como ChatGPT tergiversan con frecuencia eventos noticiosos y proporcionan respuestas erróneas en una fracción significativa de los casos, de acuerdo con un estudio.
La investigación, publicada el miércoles por la Unión Europea de Radiodifusión (UER) y la BBC, evaluó la precisión de más de 2.700 respuestas generadas por ChatGPT de OpenAI, Gemini de Google, Copilot de Microsoft y Perplexity.
Historias recomendadas
tira de 4 artículosfin de la tira
Veintidós medios de comunicación públicos, representando a 18 países y 14 idiomas, formularon un conjunto estandarizado de preguntas a los asistentes de IA entre finales de mayo y principios de junio para el estudio.
En total, el 45 por ciento de las respuestas presentaba al menos un problema “significativo”, según la investigación.
La citación de fuentes constituyó la dificultad más prevalente, con un 31 por ciento de las respuestas incluyendo información no respaldada por la fuente referenciada, o atribución incorrecta o no verificable, entre otras cuestiones.
La falta de precisión fue el siguiente factor que más contribuyó a las respuestas incorrectas, afectando al 20 por ciento de los casos, seguida por la ausencia de contexto apropiado, con un 14 por ciento.
Gemini exhibió las deficiencias más severas, principalmente vinculadas a la citación de fuentes, con el 76 por ciento de sus respuestas afectadas, de acuerdo con el estudio.
Según la investigación, todos los modelos de IA evaluados cometieron errores fácticos elementales.
Entre los errores citados se encuentra Perplexity, que afirmó que la subrogación es ilegal en Chequia, y ChatGPT, que mencionó al Papa Francisco como pontífice en funciones meses después de su supuesto asesinato.
OpenAI, Google, Microsoft y Perplexity no respondieron de inmediato a las solicitudes de comentario.
En un prólogo del informe, Jean Philip De Tender, director general adjunto de la UER, y Pete Archer, responsable de IA de la BBC, instaron a las empresas tecnológicas a intensificar sus esfuerzos para mitigar los errores en sus productos.
“No han priorizado esta cuestión y deben hacerlo ahora”, afirmaron De Tender y Archer.
“Asimismo, deben ser transparentes y publicar periódicamente sus resultados por idioma y mercado”.
