Los modelos de lenguaje han devorado internet y ahora se alimentan de sí mismos

He pasado mi carrera nadando en datos — como ex Director de Datos en Kaiser Permanente, UnitedHealthcare y Optum — y en un momento dado, supervisé casi el 70% de todos los registros de salud de Estados Unidos. Así que cuando les digo que el problema de la IA empresarial no es la arquitectura del modelo sino los datos con los que se alimenta, créanme: lo he visto de primera mano.

Los LLM ya están alcanzando su techo

Las grietas en los modelos de lenguaje grande (LLM) ya son evidentes. Tomemos a GPT-5. Su lanzamiento se vio plagado de quejas: fallaba en matemáticas básicas, perdía contexto que versiones anteriores manejaban con facilidad y dejaba a los clientes pagando calificándolo de “soso” y “genérico”. OpenAI incluso tuvo que restaurar un modelo anterior después de que los usuarios rechazaran su tono más frío y mecánico. Después de dos años de retrasos, muchos comenzaron a preguntarse si OpenAI había perdido su ventaja — o si todo el enfoque de los LLM simplemente estaba topando con un muro.

Meta’s LLaMA 4 cuenta una historia similar. En pruebas de contexto largo — el tipo de trabajo que las empresas realmente necesitan — Maverick no mostró mejora alguna frente a LLaMA 3, y Scout tuvo un desempeño “francamente pésimo”. Meta afirmó que estos modelos podían manejar millones de tokens; en realidad, luchaban con solo 128,000. Mientras tanto, el Gemini de Google superó el 90% de precisión en la misma escala.

El problema de datos que nadie quiere admitir

En lugar de confrontar los límites que ya estamos viendo con los LLM, la industria sigue escalando — vertiendo más capacidad de computo y electricidad en estos modelos. Y aun así, con todo ese poder, los resultados no son más inteligentes.

LEAR  Experto en finanzas emite advertencia urgente de cinco años para todos los británicos

La razón es simple: los datos de internet sobre los que se construyen estos modelos ya han sido rastreados, limpiados y reentrenados una y otra vez hasta la extenuación. Por eso los nuevos lanzamientos se sienten planos — hay poco nuevo que aprender. Cada ciclo simplemente recicla los mismos patrones de vuelta al modelo. Ya se han comido internet. Ahora se están muriendo de hambre a base de sí mismos.

Mientras tanto, la verdadera mina de oro de inteligencia — los datos privados empresariales — permanece bajo llave. Los LLM no están fallando por falta de datos — están fallando porque no utilizan los datos correctos. Piensen en lo que se necesita en el sector de la salud: registros de reclamaciones, historiales médicos, notas clínicas, facturación, facturas, solicitudes de autorización previa, transcripciones de centros de llamadas — la información que realmente refleja cómo se gestionan los negocios y las industrias.

Hasta que los modelos puedan entrenarse con ese tipo de datos, siempre se quedarán sin combustible. Puedes apilar parámetros, añadir GPUs y verter electricidad en modelos cada vez más grandes, pero eso no los hará más listos.

Los modelos de lenguaje pequeños son el futuro

El camino a seguir no son modelos más grandes. Son modelos más pequeños e inteligentes. Los Modelos de Lenguaje Pequeños (SLM) están diseñados para hacer lo que los LLM no pueden: aprender de los datos empresariales y enfocarse en problemas específicos.

He aquí por qué funcionan.

Primero, son eficientes. Los SLM tienen menos parámetros, lo que significa menores costes de computación y tiempos de respuesta más rápidos. No necesitas un centro de datos lleno de GPUs solo para ponerlos en marcha.

LEAR  Los nombres más populares para niñas y niños en Trafford

Segundo, son específicos de dominio. En lugar de intentar responder cada pregunta de internet, están entrenados para hacer una cosa bien — como la codificación de riesgo HCC, autorizaciones previas o codificación médica. Por eso ofrecen precisión donde los LLM genéricos tropiezan.

Tercero, se adaptan a los flujos de trabajo empresariales. No se quedan afuera como una demo brillante. Se integran con los datos que realmente impulsan tu negocio — datos de facturación, facturas, reclamaciones, notas clínicas — y lo hacen con gobierno y cumplimiento en mente.

El futuro no es más grande — es más pequeño

Ya he visto esta película antes: inversiones masivas, hype interminable, y luego la realización de que la escala por sí sola no resuelve el problema.

El camino a seguir es solucionar el problema de los datos y construir modelos más pequeños e inteligentes que aprendan de la información que las empresas ya poseen. Así es como se hace útil a la IA — no persiguiendo el tamaño por el tamaño en sí. Y no soy el único que lo dice. Incluso los investigadores de NVIDIA afirman ahora que el futuro de la IA agente pertenece a los modelos de lenguaje pequeños.

La industria puede seguir lanzando GPUs a modelos cada vez más grandes, o puede construir otros mejores que realmente funcionen. La elección es obvia.

Foto: J Studios, Getty Images

Fawad Butt es cofundador y CEO de Penguin Ai. Anteriormente se desempeñó como Director de Datos en Kaiser Permanente, UnitedHealthcare Group y Optum, liderando el equipo más grande de expertos en datos y análisis de la industria y gestionando un P&L de varios cientos de millones de dólares.

LEAR  Eli Lilly se acerca a ofrecer a los pacientes diabéticos una alternativa de insulina semanal.

Esta publicación aparece a través del programa MedCity Influencers. Cualquier persona puede publicar su perspectiva sobre negocios e innovación en el cuidado de la salud en MedCity News a través de MedCity Influencers. Haga clic aquí para saber cómo.