¿Y si te dijiera que puedo hacer que dejes de preocuparte por el cambio climático, y que todo lo que tendrías que hacer es leer un libro? Genial, dirías, hasta que mencionara que la razón por la que dejarías de preocuparte es porque el libro dice que a nuestra especie solo le quedan unos pocos años antes de que sea eliminada por una IA superinteligente de todos modos.
No sabemos exactamente qué forma tomará esta extinción – quizás una IA con mucha hambre de energía dejará que los millones de centrales de fusión que ha construido funcionen a alta temperatura, hirviendo los océanos. Tal vez quiera reconfigurar los átomos de nuestros cuerpos para convertirlos en algo más útil. Hay muchas posibilidades, casi todas malas, dicen Eliezer Yudkowsky y Nate Soares en *Si Alguien Lo Construye, Todos Mueren*, y quién sabe cuál se hará realidad. Pero así como puedes predecir que un cubito de hielo se derretirá al caer en agua caliente sin saber dónde terminará cada una de sus moléculas, puedes estar seguro de que una IA más inteligente que un ser humano nos matará a todos, de alguna manera.
Este nivel de confianza es típico de Yudkowsky, en particular. Él ha estado advirtiendo sobre los riesgos existenciales que representa la tecnología durante años en el sitio web que ayudó a crear, LessWrong.com, y a través del Instituto de Investigación de Inteligencia Artificial que fundó (Soares es el presidente actual). A pesar de no graduarse de la escuela secundaria o la universidad, Yudkowsky es muy influyente en el campo, y una celebridad en el mundo de hombres jóvenes muy brillantes que discuten entre sí en línea (además de ser el autor de una obra de fanfic de 600,000 palabras llamada *Harry Potter y los Métodos de la Racionalidad*). Colorido, molesto, polarizante. “La gente se deprime clínicamente leyendo tus tonterías”, se lamentó el investigador principal Yann LeCun durante una disputa en línea. Pero, como científico jefe en Meta, ¿quién es él para hablar?
Y aunque Yudkowsky y Soares pueden ser poco convencionales, sus advertencias son similares a las de Geoffrey Hinton, el “padrino de la IA” ganador del Nobel, y Yoshua Bengio, el científico informático más citado del mundo, ambos firmaron la declaración de que “mitigar el riesgo de extinción por la IA debería ser una prioridad global junto con otros riesgos a escala social como las pandemias y la guerra nuclear”.
Como llamamiento, *Si Alguien Lo Construye, Todos Mueren* está bien sincronizado. La IA superinteligente aún no existe, pero a raíz de la revolución de ChatGPT, la inversión en los centros de datos que la alimentarían ahora se cuenta en cientos de miles de millones. Esto equivale a “el despliegue más grande y rápido de una tecnología de propósito general en la historia”, según John Thornhill del FT. Solo Meta gastará hasta $72 mil millones en infraestructura de IA este año, y el logro de la superinteligencia es ahora el objetivo explícito de Mark Zuckerberg.
No son buenas noticias, si crees en Yudkowsky y Soares. Pero, ¿por qué deberíamos? A pesar de la complejidad de su tema, *Si Alguien Lo Construye, Todos Mueren* es tan claro como sus conclusiones son difíciles de tragar. Donde las discusiones se vuelven más técnicas, principalmente en pasajes que tratan sobre el entrenamiento y la arquitectura de modelos de IA, sigue siendo lo suficientemente sencillo para que los lectores comprendan los hechos básicos.
Entre estos está que realmente no entendemos cómo funciona la IA generativa. En el pasado, los programas de computadora se codificaban a mano; cada aspecto de ellos era diseñado por un humano. En contraste, los últimos modelos no están “artesanados”, sino “cultivados”. No entendemos, por ejemplo, cómo la capacidad de razonar de ChatGPT surgió de mostrarle grandes cantidades de texto generado por humanos. Algo fundamentalmente misterioso ocurrió durante su incubación. Esto coloca una parte vital del funcionamiento de la IA fuera de nuestro control y significa que, incluso si podemos orientarla hacia ciertos objetivos como “ser amable con las personas”, no podemos determinar cómo lo logrará.
Eso es un problema, porque significa que la IA inevitablemente generará sus propias preferencias y formas de hacer las cosas, y estas predilecciones ajenas es improbable que estén alineadas con las nuestras. (Vale la pena señalar que esto es completamente separado de la cuestión de si las IAs podrían ser “sintientes” o “conscientes”. Establecer objetivos y tomar acciones para lograrlos es suficiente para provocar un comportamiento potencialmente peligroso.) En cualquier caso, Yudkowsky y Soares señalan que las empresas tecnológicas ya están intentando construir IAs que hagan cosas por iniciativa propia, porque las empresas pagarán más por herramientas que no tienen que supervisar. Si una IA “agencial” como esta llegara a obtener la capacidad de mejorarse a sí misma, superaría rápidamente las capacidades humanas en prácticamente todas las áreas. Suponiendo que tal IA superinteligente valorara su propia supervivencia – ¿por qué no lo haría? – inevitablemente intentaría evitar que los humanos desarrollen IAs rivales o la apaguen. La única forma segura de hacer eso es eliminándonos a nosotros.
¿Qué métodos usaría? Yudkowsky y Soares argumentan que estos podrían involucrar tecnología que aún no podemos imaginar, y que puede parecernos muy peculiar. Nos comparan con los aztecas viendo barcos españoles en la costa de México, para quienes la idea de “palos que pueden apuntarte para hacerte morir” – alias pistolas – habría sido difícil de concebir.
No obstante, para hacer las cosas más convincentes, lo intentan. En la parte del libro que más se parece a la ciencia ficción, presentan un escenario ilustrativo que involucra una IA superinteligente llamada Sable. Desarrollada por una gran empresa tecnológica, Sable se extiende por internet a cada rincón de la civilización, reclutando secuaces humanos a través de la versión más persuasiva de ChatGPT imaginable, antes de destruirnos con virus sintéticos y máquinas moleculares. Es extravagante, por supuesto – pero los aztecas hubieran dicho lo mismo de los mosquetes y el catolicismo.
Yudkowsky y Soares presentan su caso con tal convicción que es fácil salir de este libro listo para cancelar tus aportaciones a la pensión. El destello de esperanza que ofrecen – y es de bajo voltaje – es que la perdición puede evitarse si el mundo entero acuerda cerrar el desarrollo de IA avanzada lo antes posible. Dados los incentivos comerciales y estratégicos, y el estado actual del liderazgo político, esto parece un poco improbable.
Las migajas de esperanza que nos quedan para buscar, entonces, son indicios de que quizás no tengan razón, ya sea sobre el hecho de que la superinteligencia está en camino, o de que su creación equivale a nuestra aniquilación.
Ciertamente hay momentos en el libro en los que la confianza con la que se presenta un argumento supera su solidez. Un pequeño ejemplo: como ilustración de cómo la IA puede desarrollar preferencias extrañas y ajenas, los autores ofrecen el hecho de que algunos modelos de lenguaje grande encuentran difícil interpretar oraciones sin puntos finales. “Los pensamientos humanos no funcionan así”, escriben. “No nos costaría comprender una oración que terminara sin punto”. Pero eso no es realmente cierto; los humanos a menudo dependen de marcadores al final de una oración para interpretarla correctamente. Aprendemos el lenguaje a través del habla, por lo que no son puntos en la página sino características “prosódicas” como la entonación: piensa en la diferencia entre un tono ascendente y descendente al final de una frase como “dijo que vendría”. Si la IA entrenada en texto se apoya mucho en la puntuación para entender qué pasa, eso muestra que sus procesos de pensamiento son análogos, no ajenos, a los humanos.
Y para escritores impregnados en la cultura hiperracional de LessWrong, Yudkowsky y Soares exhiben más que un toque de sesgo de confirmación. “La historia”, escriben, “está llena de … ejemplos de riesgo catastrófico siendo minimizado e ignorado”, desde la gasolina con plomo hasta Chernobyl. Pero, ¿qué hay de las predicciones de riesgo catastrófico que resultaron erróneas? La historia también está llena de esas, desde el apocalipsis poblacional de Malthus hasta el Y2K. El mismo Yudkowsky una vez afirmó que la nanotecnología destruiría a la humanidad “a más tardar en 2010”.
El problema es que puedes ser demasiado seguro, inconsistente, un profeta de la perdición serial, y aún así tener razón. Es importante ser conscientes de nuestro propio razonamiento motivado al considerar los argumentos presentados aquí; tenemos muchos incentivos para no creerlos.
Y aunque es cierto que ellos no representan el consenso científico, este es un campo que cambia rápidamente y es poco comprendido. Qué constituye inteligencia, qué constituye “súper”, si la inteligencia sola es suficiente para asegurar el dominio mundial – todo esto se debate furiosamente.
Al mismo tiempo, el consenso que existe no es particularmente tranquilizador. En una encuesta de 2024 a 2,778 investigadores de IA, la probabilidad media asignada a “resultados extremadamente malos, como la extinción humana” fue del 5%. Preocupantemente, “haber pensado más (ya sea ‘mucho’ o ‘una gran cantidad’) sobre la pregunta se asoció con una mediana del 9%, mientras que haber pensado ‘poco’ o ‘muy poco’ se asoció con una mediana del 5%”.
Yudkowsky ha estado pensando en el problema durante la mayor parte de su vida adulta. El hecho de que su predicción esté por encima del 99% podría reflejar una especie de monomanía histérica, o un compromiso especialmente profundo con el problema. Sea como fuere, parece que todos los interesados en el futuro tienen el deber de leer lo que él y Soares tienen que decir.
*Si Alguien Lo Construye, Todos Mueren* de Eliezer Yudkowsky y Nate Soares es publicado por Bodley Head (£22). Para apoyar a The Guardian, ordena tu copia en guardianbookshop.com. Pueden aplicarse cargos de envío.
