Los Peligros Ocultos de las Puntuaciones de Confianza de la IA en el Cuidado de la Salud

La innovación y adopción de IA está en auge en el sector de la salud, desde herramientas de diagnóstico hasta medicina personalizada. Mientras que los líderes de la salud son optimistas, los líderes de IT con los que he hablado son menos seguros. Cuando se trata de vidas en juego, ¿cómo se puede saber si una herramienta de IA produce resultados confiables?

Recientemente, algunos grupos han recomendado puntajes de confianza como una forma de medir la confiabilidad de la IA en el sector de la salud. En el contexto de la IA, los puntajes de confianza a menudo derivan de aproximaciones en lugar de probabilidades validadas. Especialmente en el sector de la salud, los grandes modelos de lenguaje (LLMs) podrían producir puntajes de confianza que no corresponden a probabilidades reales, lo que puede crear un sentido engañoso de certeza.

En mi opinión, como líder tecnológico en el sector de la salud y entusiasta de la IA, este es el enfoque equivocado. La IA puede servir como una herramienta invaluable, pero confiar ciegamente en los “puntajes de confianza” crea riesgos serios. A continuación, describiré cuáles son estos riesgos y sugeriré cuáles son, en mi opinión, mejores alternativas para que puedas utilizar la IA sin comprometer el trabajo de tu organización.

Puntajes de confianza explicados en el contexto de la IA

Los puntajes de confianza son números destinados a mostrar la certeza de una herramienta de IA sobre una salida, como un diagnóstico o un código médico. Para entender por qué los usuarios del sector de la salud no deberían confiar en los puntajes de confianza, es importante explicar cómo funciona la tecnología. En la IA, los puntajes de confianza suelen provenir de un intervalo de confianza estadístico. Este es un resultado matemático que calcula la probabilidad de que una salida de IA sea precisa en función de su modelo de entrenamiento.

Estos aparecen a menudo en otras formas de tecnología. Piensa en una aplicación de citas que da a los usuarios un puntaje de coincidencia, por ejemplo. Ver estos puntajes en la vida cotidiana puede fácilmente llevar a alguien a pensar que son confiables y apropiados para otros contextos, como el sector de la salud.

LEAR  La tecnología portátil está empoderando a los pacientes para ser proactivos en su salud.

Para los clínicos que consultan resúmenes generativos de IA en el expediente de un paciente, por ejemplo, un puntaje de confianza mostrado puede implicar una falsa certeza, lo que lleva a errores no deseados si confían en esta tecnología más que en su propio juicio.

Creo que incluir estos puntajes en una plataforma de salud supone un riesgo demasiado grande. He elegido no mostrar niveles de confianza en las soluciones de IA que diseño porque creo que pueden desalentar a los usuarios a pensar críticamente sobre la información en sus pantallas. Esto es especialmente cierto para usuarios que no están capacitados en análisis o no están familiarizados con los mecanismos de la IA o el aprendizaje automático.

Un enfoque defectuoso para calificar la salida de IA

Los puntajes de confianza de la IA a menudo aparecen como porcentajes, sugiriendo una cierta probabilidad de que un código o diagnóstico sea correcto. Sin embargo, para los profesionales de la salud no capacitados en ciencia de datos, estos números pueden parecer engañosamente confiables. Específicamente, estos puntajes plantean cuatro riesgos significativos:

1. Malentendido del contexto – Por defecto, los flujos de trabajo de IA contienen solo entrenamiento a nivel de población, no en la demografía específica de un proveedor. Esto significa que una herramienta de IA estándar no tiene en cuenta la población del clínico o los patrones de salud locales, y un puntaje de confianza reflejará una suposición amplia en lugar de perspicacias personalizadas. Esto deja a los clínicos con una imagen incompleta.

2. Exceso de confianza en los puntajes mostrados – Cuando un usuario lee un puntaje de confianza del 95%, puede asumir que no hay necesidad de investigar más. Esto puede simplificar en exceso las complejidades de los datos. En el peor de los casos, fomenta a los clínicos a pasar por alto su propia revisión crítica o a perder diagnósticos matizados. El sesgo de automatización, un fenómeno donde los usuarios confían demasiado en las salidas tecnológicas, es particularmente preocupante en el sector de la salud. Estudios indican que el sesgo de automatización puede llevar a los clínicos a pasar por alto síntomas críticos si asumen que el puntaje de confianza de la IA es concluyente.

LEAR  Por qué no deberías usar hisopos de algodón para limpiar tus oídos

3. Falsa representación de la precisión – Las complejidades de la salud no siempre coinciden con las probabilidades estadísticas. Un puntaje de confianza alto puede coincidir con datos a nivel de población, pero la IA no puede diagnosticar a un paciente en particular con certeza. Esta discrepancia puede crear una falsa sensación de seguridad.

4. La falsa seguridad genera errores – Si los clínicos siguen demasiado de cerca las recomendaciones de alta puntuación de la IA, podrían pasar por alto otros posibles diagnósticos. Por ejemplo, si la IA sugiere una alta confianza en un código particular, un clínico podría omitir una investigación adicional. Si ese código es incorrecto, puede propagarse a través de decisiones de atención posteriores, retrasando intervenciones críticas o creando un error de facturación en un contrato de atención basada en el valor. Estos errores comprometen la confianza, ya sea un usuario de la plataforma que se vuelve cauteloso con la IA o un facturador de seguros que cuestiona las reclamaciones entrantes.

Una mejor manera de ayudar a los usuarios a comprender la fortaleza de la salida de IA

Los datos locales y el conocimiento de cómo un usuario final interactuará con las herramientas de IA te permiten adaptar la IA para que funcione efectivamente. En lugar de depender de puntajes de confianza, recomiendo utilizar estos tres métodos para crear salidas confiables:

1. Localizar y actualizar los modelos de IA con frecuencia – Personalizar los modelos de IA para incluir datos locales – patrones de salud específicos, demografía y condiciones de salud en evolución – hace que la salida de la IA sea más relevante. Por ejemplo, hay un mayor porcentaje de pacientes con diabetes tipo II en Alabama que en Massachusetts, y una salida precisa depende de datos oportunos y localizados que reflejen a la población a la que sirves. Saber qué datos se alimentan en un modelo y cómo se desarrolla y mantiene es una parte necesaria para que un usuario entienda una salida de IA. Entrenar y actualizar continuamente los modelos con datos frescos garantiza que reflejen los estándares y descubrimientos actuales, evitando depender de datos obsoletos. Los procesos regulares de reentrenamiento y auditoría son cruciales. Al actualizar un modelo de IA con datos actuales y locales, las organizaciones de salud pueden reducir el riesgo de puntajes de confianza que no reflejan las dinámicas del mundo real.

LEAR  Optimizando los procesos de alta hospitalaria mejora los resultados de los pacientes.

2. Mostrar las salidas de manera reflexiva para el usuario final – Considera cómo cada usuario interactúa con los datos y diseña las salidas para satisfacer sus necesidades sin asumir que “una talla única sirve para todos”. En otras palabras, las salidas deben coincidir con la perspectiva del usuario. Lo que es significativo para un científico de datos es diferente de lo que es significativo para un clínico. En lugar de un solo puntaje de confianza, considera mostrar datos contextuales, como con qué frecuencia predicciones similares han sido precisas dentro de poblaciones o entornos específicos. Las visualizaciones comparativas pueden ayudar a los usuarios a evaluar más efectivamente las recomendaciones de la IA.

3. Apoyar, pero no reemplazar, el juicio clínico – Las mejores herramientas de IA guían a los usuarios sin tomar decisiones por ellos. Utiliza clasificaciones apiladas para presentar una gama de posibilidades de diagnóstico con las coincidencias más fuertes en la parte superior. Al clasificar las posibilidades, los clínicos tienen opciones para considerar y confiar en su juicio profesional para tomar una decisión en lugar de aceptación automática.

Los clínicos necesitan herramientas tecnológicas diseñadas para apoyar su experiencia y desalentar la confianza ciega en los puntajes de confianza. Al combinar las perspicacias de la IA con el contexto del mundo real, las organizaciones de salud pueden adoptar la IA de manera responsable, construyendo flujos de trabajo más fluidos y, lo más importante, una atención más segura para los pacientes.