Una investigación de Epoch AI, un instituto de investigación de IA sin fines de lucro, sugiere que la industria de la IA puede no ser capaz de obtener ganancias de rendimiento masivo de los modelos de IA de razonamiento durante mucho más tiempo. Tan pronto como internamente de un año, el progreso de los modelos de razonamiento podría disminuir, según los hallazgos del documento.
Modelos de razonamiento como O3 de OpenAI han llevado a ganancias sustanciales en los puntos de referencia de IA en los últimos meses, particularmente en los puntos de referencia que miden las matemáticas y las habilidades de programación. Los modelos pueden aplicar más computación a los problemas, lo que puede mejorar su rendimiento, con la desventaja de que tardan más que los modelos convencionales para completar las tareas.
Los modelos de razonamiento se desarrollan primero al entrenar un modelo convencional en una cantidad masiva de datos, luego aplicando una técnica de aprendizaje por refuerzo, lo que efectivamente le da al modelo “feedback” sobre sus soluciones a problemas difíciles.
Hasta ahora, Frontier AI Labs como OpenAI no han dedicado una enorme cantidad de potencia informática a la etapa de aprendizaje por refuerzo de la capacitación del modelo de razonamiento, según Epoch.
Eso está cambiando. OpenAI ha dicho que aplicó cerca de 10 veces más informática para entrenar O3 que su predecesor, O1, y Epoch especula que la mayor parte de esta computación estaba dedicada al aprendizaje por refuerzo. Y el investigador de OpenAI, Dan Roberts, reveló recientemente que los planes futuros de la compañía requieren priorizar el aprendizaje por refuerzo utilizando mucha más potencia informática, incluso más que para el entrenamiento del modelo original.
Pero todavía hay un límite superior a la cantidad de computación que se puede aplicar al aprendizaje por refuerzo, por ahora.
Según una investigación de Epoch AI, la curva de aprendizaje del modelo de razonamiento puede detenerse.
Josh You, analista de Epoch y autor de la investigación, explica que las ganancias de rendimiento del entrenamiento de modelos de IA convencionales actualmente se reducen a la mitad cada año, mientras que las ganancias de rendimiento del aprendizaje por refuerzo están creciendo diez veces cada 3-5 meses. El progreso del entrenamiento de razonamiento “probablemente convergerá con el límite genérico para 2026”, continúa.
La investigación de Epoch hace una serie de suposiciones y se basa en parte en los comentarios públicos de los ejecutivos de la compañía de IA. Pero también defiende que los modelos de razonamiento pueden ser desafiantes por razones adicionales a la informática, incluidos los altos costos generales para la investigación.
“Si se requiere un costo de sobrecarga persistente para la investigación, los modelos de razonamiento podrían no avanzar tan lejos como se esperaba”, escribe. “La curva rápida de aprendizaje es potencialmente un ingrediente muy importante en el progreso del modelo de razonamiento, por lo que vale la pena seguir esto de cerca”.
Es probable que cualquier indicación de que los modelos de razonamiento puedan alcanzar algún tipo de límite en el futuro cercano preocupe a la industria de la IA, que ha invertido enormes recursos en el desarrollo de este tipo de modelos. Los estudios ya han demostrado que los modelos de razonamiento, que pueden ser increíblemente caros de desarrollar, tienen defectos graves, como una tendencia a alucinar más que ciertos modelos convencionales.
