La innovación en el sector salud depende de nuestra capacidad para descifrar lo que los datos intentan enseñarnos. El análisis de datos, incluyendo pero no limitado al análisis potenciado por GenAI, genera una demanda insaciable de conjuntos de datos grandes, bien curados y consultables. Esto ya es un desafío: tenemos muchos datos, pero no muchos datos de calidad. Un factor que exacerba este desafío de curación de datos suele ser un mandato legal, político, ético o de riesgo empresarial que exige que los datos curados también estén “desidentificados”. Para conjuntos que incluyen Información de Salud Protegida (PHI), la desidentificación debe realizarse de acuerdo con uno de los dos métodos establecidos en las regulaciones HIPAA. Y consistentemente, el método que suele funcionar para el análisis de datos es el método estadístico.
El método estadístico no es nuevo. Y contrario al mito popular, no se considera “menos conforme” que la alternativa, el llamado método Safe Harbor. Inicialmente, la Oficina de Derechos Civiles, que administra HIPAA, había propuesto incluir solo el método estadístico. Pero la comunidad regulada quería un estándar fácil y repetible que no les obligara a obtener asesoramiento estadístico en cada caso, lo que se percibía como una carga transaccional severa. El método Safe Harbor, que requiere la eliminación de 18 campos enumerados, ofrece facilidad administrativa a la comunidad regulada, pero con un precio alto. En muchos casos, los datos que quedan después de redactar u ofuscar toda la información requerida bajo la desidentificación Safe Harbor ya no son útiles para el propósito inicial.
La desidentificación estadística es tanto una actividad táctica como estratégica. Existen varios pasos concretos que la comunidad regulada puede tomar para sacar el máximo provecho de sus iniciativas de desidentificación estadística.
La motivación importa: Safe Harbor y la desidentificación estadística presentan diferentes oportunidades estratégicas y obstáculos de cumplimiento. La desidentificación Safe Harbor permite a una parte regulada tener un método relativamente fácil de autoadministrar la desidentificación mediante la eliminación de 18 campos enumerados, siempre que ninguno de esos campos sea necesario para la actividad planeada. Es robótico, pero también inflexible. El método estadístico, en cambio, está diseñado para ofrecer flexibilidad al considerar los riesgos reales y medibles de reidentificación que presentan una serie de factores, incluyendo los datos, pero también el receptor, otra información disponible para él, y las salvaguardas contractuales y políticas. Requiere un programa de gobernanza para asegurar que se sigan los parámetros del dictamen, pero a cambio, permite casi universalmente que más datos permanezcan en el conjunto desidentificado.
Involucrar a asesoría jurídica: Si es la primera vez que realizas una desidentificación estadística o este ejercicio es estratégica o materialmente diferente a dictámenes anteriores, el proceso probablemente generará preguntas legales y de cumplimiento, por lo que el consejo jurídico será importante.
Piensa en grande primero: El ejercicio estadístico es una buena oportunidad para involucrar a las partes interesadas del negocio y entender los planes de datos a corto y mediano plazo. Empieza pensando en (1) la máxima cantidad de datos que sería útil conservar en el conjunto desidentificado; (2) los potenciales receptores del conjunto, y controles razonables sobre su uso; y (3) el rango de casos de uso posibles y las prioridades del negocio. Trabajando con tu experto, quizás debas retroceder en ciertos campos o propósitos, pero al pensar de manera amplia desde el outset, puedes trabajar más efectivamente con tu experto.
Más que redacción: Al establecer el elemento del diccionario de datos del dictamen, la redacción de datos (la eliminación de ciertos campos) es la herramienta más obvia. Sin embargo, tu estadístico puede ofrecer orientación con más matices, tanto en términos de protección de privacidad como de utilidad de los datos. Por ejemplo, se pueden explorar la randomización de datos, el desplazamiento de datos, añadir ruido para dificultar discernir patrones de reidentificación, incluidos los datos sintéticos, crear campos similares, y una gama de otras técnicas de ofuscación. Las técnicas criptográficas para crear ID privados deben aplicarse cuidadosamente para asegurar que no sean prácticamente reversibles, incluso eligiendo claves criptográficas apropiadas. Las técnicas de transformación de datos deben ser adecuadas para el propósito; en algunos casos, ciertas manipulaciones podrían significar que los datos no se podrían usar, por ejemplo, para ciertos fines regulados por la FDA. Pero esto es parte de la discusión estratégica.
Más que solo tablas: La desidentificación estadística puede usarse para desidentificar datos no estructurados, incluidos texto, notas clínicas e imágenes médicas. La tecnología y las capacidades evolucionan rápidamente, y los datos no estructurados han pasado de ser un nicho y solo selectivamente manejables a una opción escalable en solo unos años. Al considerar la máxima cantidad de datos en el conjunto desidentificado, es importante validar suposiciones sobre lo que es prácticamente achievable para evitar que las opciones se restrinjan artificialmente.
Prepárate para negociar: En muchos casos, un dictamen estadístico bien diseñado te presentará compensaciones sobre los campos de datos disponibles o su granularidad. Para ilustrar con un ejemplo sencillo, se podrían permitir campos de datos relacionados con la etnia, pero no en ciertas ubicaciones donde serían altamente identificativos debido a la demografía local. En lugar de que el dictamen requiera la redacción de la etnia o la ubicación en todos los casos, puede permitir campos de datos bajo ciertos parámetros pero “atenuar” su disponibilidad en otros. Si puedes implementar la arquitectura de datos para hacer esto, creas un menú de opciones para tu negocio, permitiendo a los receptores acceder a ciertos datos dentro de un marco flexible.
El dictamen como receta: Los datos que persistirán en el conjunto desidentificado (normalmente llamado diccionario de datos) son solo un elemento del dictamen general. El dictamen tendrá varios otros ingredientes, todos importantes, y deberás cumplir con todos ellos para que el dictamen sea aplicable. Por ejemplo, los estadísticos pueden considerar que la presencia de ciertas cláusulas contractuales o políticas es relevante para medir el riesgo. O, el estadístico puede haber tenido en cuenta el propósito declarado del conjunto desidentificado. Así como una receta de pan no daría una hogaza si decides prescindir de la levadura o ignorar el agua, debes implementar y cumplir el dictamen en su totalidad.
Construye una relación estadística: El esfuerzo inicial para el dictamen es el mayor. Pero el dictamen necesitará ser renovado, típicamente cada 18 meses, aunque los plazos varían. Y puede que encuentres que las suposiciones en el dictamen necesiten ser revisadas o cambiadas. Si tu experto estadístico es un buen partner, te ayudará a hacer crecer y adaptar el dictamen de acuerdo con tus prioridades estratégicas, incluso entre períodos de renovación.
Construye un cruce de datos (crosswalk): Una de las ideas incrustadas en los estándares de desidentificación de HIPAA es la necesidad (bajo cualquier método) de actualizar los datos desidentificados con el tiempo. Las instituciones pueden implementar un código de vinculación que les permita desidentificar nuevos datos a medida que llegan y asociarlos con individuos en el conjunto. Aunque no es necesario para todos los propósitos, los conjuntos de datos desidentificados longitudinales son esenciales para muchos de los fines descritos anteriormente. Las tecnologías de tokenización y vinculación también pueden aplicarse para enlazar entre conjuntos de datos discretos sin compartir PHI o elementos identificativos, aunque es importante asegurar que el conjunto de datos vinculado resultante cumpla con los estándares de desidentificación de HIPAA.
Charco de datos o lago de datos: En algunos casos, los datos que necesitas desidentificar son discretos y se generarán caso por caso aplicando los parámetros del dictamen. En otros casos, tu negocio puede presentar una variedad de futuros casos de uso de datos no especificados y/o variados. En este último caso, quizás quieras desarrollar un data lake: un conjunto de datos grande, curado y en reposo, disponible para proveer subconjuntos más pequeños para proyectos particulares. Un dictamen bien diseñado es igualmente aplicable para el todo y para las partes.
Desidentificación versus agregación de datos: Agregación de Datos es un término técnico bajo HIPAA que implica el uso de PHI de múltiples entidades cubiertas para benchmarking y otras actividades conjuntas. La comunidad regulada a menudo usa “desidentificado” y “agregado” indistintamente, pero no son lo mismo. Asegúrate de que lo que necesitas son datos desidentificados para un proyecto particular.
Invierte en etiquetado de datos: El etiquetado de datos permitirá a tu organización tener más destreza con los datos que considera disponibles para desidentificación y proporcionará granularidad a nivel de campo. Es un trabajo técnico, operativo y administrativo que puede no parecer glamuroso, pero es un bloque esencial para conjuntos de datos lucrativos.
El papel de la IA: Es imposible hablar de cualquier tema de salud o datos hoy sin mencionar la IA. Así que solo diremos esto: la IA es una carga y un don en la desidentificación. Las herramientas de IA pueden ayudar a desidentificar datos no estructurados (notoriamente difíciles) y pueden acelerar las herramientas de desidentificación y el análisis de conjuntos. La IA también puede usarse para verificar suposiciones estadísticas sobre el riesgo residual. Pero las herramientas de IA también podrían potencialmente cambiar el cálculo del riesgo de reidentificación si pueden interrogar datos e identificar patrones aprovechados para la reidentificación de nuevas maneras.
A medida que crecen las demandas de datos, la desidentificación es una prioridad de gobernanza y estratégica esencial para los actores en la economía de datos digital. Los proyectos de desidentificación permiten a ingenieros, líderes empresariales, de cumplimiento y asesoría legal trabajar colaborativamente y crear una conversación alrededor de la gobernanza de datos que reporta dividendos más allá del propio conjunto de datos.
Foto: Weiquan Lin, Getty Images
Jordan Collins es un líder estratégico orientado a resultados con más de 20 años de experiencia en funciones analíticas enfocadas en habilitar decisiones basadas en datos a nivel empresarial. Actualmente es el Gerente General de Privacy Analytics, una compañía de IQVIA. Privacy Analytics permite a las organizaciones liberar el valor de los datos sensibles para usos secundarios mientras gestiona consideraciones de privacidad. Jordan tiene un PhD en Filosofía de la University of Auckland, una Maestría en Estadística Aplicada de York University, una MSc en Matemáticas Puras de McMaster University, y una Licenciatura en Matemáticas de Mount Allison University. Jordan tiene una sólida formación en análisis, comenzando su carrera como estadístico. Tiene una amplia experiencia consultora con un perfil emprendedor, habiendo establecido su propia práctica de consultoría estadística centrada en aplicaciones estadísticas en salud así como en optimización de procesos industriales y empresariales. Durante los últimos 10 años ha aplicado estas habilidades analíticas a desafíos técnicos de privacidad a nivel global.
Jennifer Geetter es socia en la oficina de DC de McDermott Will & Schulte. Con una práctica centrada principalmente en el desarrollo, entrega e implementación de soluciones de salud digital, datos e investigación, Jennifer trabaja estrechamente tanto con adoptantes como desarrolladores para llevar sus soluciones innovadoras de salud a pacientes y proveedores. Para diseñar y desplegar tecnologías de salud digital efectivamente, Jenn ofrece orientación valiosa sobre temas clave, como la incorporación de pacientes, la implementación por parte de proveedores, y temas de privacidad y regulatorios. Asesora a clientes globales de ciencias de la vida, salud e informática sobre cuestiones legales relacionadas con la salud digital, la innovación biomédica, el cumplimiento investigativo, las leyes globales de privacidad y seguridad de datos, y la gestión de relaciones financieras.
Esta publicación aparece a través del programa MedCity Influencers. Cualquier persona puede publicar su perspectiva sobre negocios e innovación en healthcare en MedCity News a través de MedCity Influencers. Haz click aquí para saber cómo.
