El término de calificación de ensayos automatizada (AEG) esencialmente significa cuando la Inteligencia Artificial (IA) y el Procesamiento de Lenguaje Natural (NLP) se utilizan para evaluar y calificar ensayos escritos. Esta tecnología utiliza algoritmos que trabajan para analizar los factores del ensayo, incluyendo gramática, ortografía, elección de palabras, sintaxis y otros, para generar una calificación o puntuación para el contenido del ensayo.
Dado que las soluciones de calificación automatizada han ganado interés y su adopción ha crecido recientemente, la educación y las evaluaciones se han trasladado cada vez más a formatos en línea y digitales. Los defensores señalan muchos posibles pros, como ahorrar tiempo a los profesores, eliminar el sesgo en la puntuación y ofrecer una respuesta inmediata a los estudiantes. Los críticos argumentan que existen limitaciones de precisión, integridad en la puntuación y efectos en los estudiantes, pero no son reales.
Este artículo examina los principales pros y contras de utilizar un evaluador automático de ensayos hoy y proyecciones para el futuro. Analizaremos las capacidades y limitaciones de las soluciones actuales, presentaremos casos de uso y estadísticas sobre la implementación en el mundo real, revisaremos los impactos en educadores y estudiantes, y discutiremos las perspectivas de avance a medida que la IA y el NLP evolucionan.
El Auge de las Soluciones de Calificación Automatizada
La tecnología de calificación automatizada se originó en la década de 1960, pero sus capacidades permanecieron extremadamente limitadas hasta los avances recientes en inteligencia artificial y aprendizaje automático. En la última década, se han producido avances significativos en NLP y redes neuronales que pueden analizar el texto escrito y el lenguaje de manera más precisa que nunca.
Varios proveedores ahora ofrecen soluciones de puntuación de ensayos basadas en IA utilizadas por cientos de universidades, distritos escolares públicos y organizaciones de pruebas en todo el mundo. El mayor proveedor, EdX, respalda la calificación de ensayos para pruebas como el SAT, GMAT y TOEFL. Las escuelas públicas en al menos 21 estados de EE. UU. utilizan la puntuación automatizada para manejar el creciente número de exámenes escritos y tareas asincrónicas.
El uso continúa aumentando rápidamente. Las estimaciones recientes proyectan que el tamaño del mercado mundial de software de calificación automatizada de ensayos tenía un valor de aproximadamente USD 0,25 mil millones en 2023 y se espera que alcance los USD 0,75 mil millones para 2032, creciendo a una tasa de crecimiento anual compuesta (CAGR) de alrededor del 12% desde 2023 hasta 2032. Esto representa un cambio importante en la adopción de la calificación automatizada para mantenerse al día con las tendencias de aprendizaje remoto y digital.
Pros de la Calificación Automatizada de Ensayos
La calificación automatizada de ensayos ofrece varios beneficios potenciales que explican su creciente uso.
Ahorra Tiempo a los Profesores
Calificar ensayos y tareas escritas representa una de las tareas más laboriosas y que más tiempo consume de los profesores. Las soluciones automatizadas pueden acelerar significativamente el proceso y aliviar esta carga.
Por ejemplo, se estima que los profesores pueden pasar entre 10 y 15 minutos calificando un solo ensayo. Para una clase de 25 estudiantes, eso equivale a 4-6 horas de trabajo. La puntuación automatizada puede evaluar ensayos en 1 minuto o menos por ensayo, ahorrando a los profesores horas de trabajo manual y liberando más tiempo para la planificación de lecciones, la enseñanza y la retroalimentación a los estudiantes.
Ofrece Retroalimentación Rápida a los Estudiantes
Relacionado con el ahorro de tiempo a los profesores, la calificación automatizada también permite a los estudiantes recibir puntuaciones y retroalimentación sobre las tareas escritas mucho más rápido. En lugar de esperar días o semanas para que los profesores califiquen los trabajos, los sistemas automatizados pueden evaluar las entregas en cuestión de segundos e proporcionar a los estudiantes al instante sus puntuaciones de ensayo.
La retroalimentación de rendimiento inmediata permite a los estudiantes identificar áreas de escritura a mejorar más pronto. Y la investigación muestra que una retroalimentación más rápida también conduce a una mejor retención a largo plazo y desarrollo de habilidades.
Elimina los Sesgos en la Puntuación Subjetiva
A diferencia de los calificadores humanos que aplican inherentemente sesgos y preferencias subjetivas a la calificación de ensayos, las soluciones de calificación automatizada utilizan algoritmos de IA no sesgados y objetivos. La mayoría de los sistemas están entrenados en millones de ejemplos de ensayos para desarrollar reglas de puntuación que evalúan elementos como la semántica, el vocabulario y la precisión del contenido temático sin favoritismos.
A través de los avances en el aprendizaje automático, los principales motores de puntuación de ensayos han logrado minimizar los sesgos algorítmicos también. Esto resulta en puntuaciones imparciales basadas estrictamente en la calidad del ensayo versus los sesgos de los calificadores que pueden influir negativa o positivamente en las puntuaciones calificadas por humanos.
Facilita Evaluaciones a Gran Escala
La calificación automatizada proporciona una solución escalable para satisfacer las necesidades de calificación de ensayos y respuestas cortas de alto volumen para las grandes organizaciones evaluadoras. Por ejemplo, una herramienta de calificación de IA de un proveedor informa una capacidad para calificar 400 mil millones de preguntas de respuesta corta al año, un volumen prácticamente imposible para los calificadores humanos.
Tal capacidad permite evaluaciones más frecuentes y a gran escala para medir mejor el aprendizaje de los estudiantes y refinar los programas de instrucción a nivel del sistema. Algunos estados ahora administran evaluaciones formativas cada 2-3 semanas y atribuyen a la puntuación de IA la capacidad de hacer esto factible, donde el personal no puede.
Contras de la Calificación Automatizada de Ensayos
Aunque la calificación automatizada de ensayos ofrece ventajas significativas, existen legítimos inconvenientes y limitaciones.
No Puede Igualar la Precisión de la Calificación Humana
El inconveniente más significativo es que la calificación algorítmica aún no puede igualar la precisión y perspicacia humanas. Aunque las capacidades de IA avanzan anualmente, imitar completamente la comprensión y cognición del lenguaje humano sigue siendo complejo y desafiante.
La mayoría de los motores automatizados aún luchan por analizar la semántica, la inferencia, la creatividad y otras habilidades de orden superior que los calificadores humanos reconocen intuitivamente en la escritura. Argumentos sofisticados, ideas originales, humor, ironía y otras cualidades subjetivas del lenguaje también plantean problemas de precisión.
Riesgos de Escritura Fórmula y Estructurada
Los críticos argumentan que la calificación automatizada de ensayos, porque los algoritmos analizan el estilo y las estructuras de escritura en lugar de las ideas, incentiva una escritura fórmula e insípida destinada a complacer a los modelos de IA en lugar de demostrar habilidades verdaderas. Por ejemplo, ensayos largos que utilizan un vocabulario complejo pueden recibir puntuaciones altas independientemente del contenido.
Además, los modelos bien entrenados generalmente pueden reconocer contenido con alto plagio bastante bien. Sin embargo, los estudiantes pueden descubrir “trucos” para manipular ligeramente el texto copiado para evitar la detección de plagio. Esto podría promover el fraude si se aplica incorrectamente a evaluaciones de alto riesgo.
En ambos casos, la preocupación es que las limitaciones en la puntuación automatizada pueden distorsionar la instrucción de escritura si los profesores y los estudiantes se enfocan únicamente en estilos y estructuras superficiales recompensados por la IA. Sin una puntuación humana equilibrada, la calidad de la escritura puede desplazarse hacia estructuras basadas en plantillas en lugar de originales, creativas, lo que retrasaría el desarrollo de habilidades.
Carece de Retroalimentación Cualitativa
La mayoría de los sistemas de puntuación automatizada pueden asignar calificaciones y proporcionar retroalimentación cuantitativa básica explicando los cálculos de la puntuación. Sin embargo, los algoritmos luchan por ofrecer un análisis cualitativo significativo con sugerencias constructivas para mejorar, como lo hacen los calificadores humanos.
Los criterios de la escala de calificación también son limitados, reduciendo a menudo la calidad del ensayo a una puntuación numérica del 1 al 6. Tales métricas simplificadas no capturan las sutilezas y oportunidades de crecimiento que los comentarios individualizados de los profesores pueden proporcionar. Los estudiantes se pierden una orientación importante adaptada a sus necesidades que la retroalimentación genérica de la IA carece actualmente.
Percepción de Imparcialidad
Finalmente, a pesar de aspirar a una objetividad imparcial, los estudios muestran que los estudiantes a menudo perciben la puntuación automatizada como menos justa y confiable que la calificación de los profesores. Los estudiantes creen que los lectores humanos comprenden mejor los conceptos y contextos para juzgar el trabajo imparcialmente en comparación con los bots.
La percepción negativa socava la confianza de los estudiantes en la integridad de la puntuación. Además, algunos observadores creen que la dependencia excesiva de los algoritmos para evaluar la escritura corre el riesgo de deshumanizar la instrucción como un proceso impersonal y numérico en lugar de fomentar el talento.
Perspectivas para Avances en la Calificación Automatizada
Los contras anteriores revelan desventajas reales para frenar la implementación más ubicua de las tecnologías de evaluación automatizada de ensayos hoy en día. Sin embargo, la evolución rápida continúa, lo que sugiere que las capacidades de IA avanzarán notablemente en los próximos años para abordar muchas limitaciones actuales.
Varios desarrollos muestran un fuerte potencial. En primer lugar, la precisión en la puntuación continúa progresando a medida que los modelos de aprendizaje automático reciben más datos de entrenamiento. Por ejemplo, los principales proveedores ahora afirman tener una paridad en la puntuación con los calificadores humanos, prediciendo que los modelos superarán la precisión promedio de los profesores para 2025.
Los avances en generación de lenguaje natural también muestran potencial para la retroalimentación automatizada. Nuevos modelos como GPT-4 demuestran capacidades mejoradas, resumiendo puntos clave y generando retroalimentación cualitativa específica superior a los comentarios actuales de plantilla.
Además, para contrarrestar los riesgos de la escritura fórmula, los algoritmos de puntuación adaptativa muestran promesas para evaluar análisis de orden superior como el pensamiento crítico versus solo el estilo de escritura. Los modelos en desarrollo también apuntan a detectar intentos sofisticados de trampa de manera más efectiva.
Finalmente, una validación del sistema mejorada y auditorías externas sobre la equidad en la puntuación pueden aumentar aún más la confianza y aceptación del usuario si se aplican adecuadamente para aliviar los problemas de percepción.
Conclusión
El avance de la inteligencia artificial tiene el potencial de llevar a una aplicación de calificación automatizada de ensayos de gran valor transformacional en la educación. Los beneficios reales como el ahorro de tiempo a los profesores, las puntuaciones rápidas e imparciales para mejorar las evaluaciones de escritura ya están siendo entregados por los sistemas líderes.
Sin embargo, al igual que con cualquier con, las limitaciones de precisión y el impacto en la calidad de la escritura muestran que aún queda alguna evolución por venir. Es concebible a corto plazo que las soluciones de calificación automatizada se conviertan en alternativas viables para evaluaciones de bajo riesgo, y a largo plazo, los socios podrían continuar desempeñando un papel en la calificación de pruebas de alto riesgo junto con sus contrapartes.
