El director ejecutivo de Anthrope planea revelar la caja negra de los modelos de IA para 2027 – ButterWord

El CEO antropico Dario Amodei publicó un informe el jueves destacando lo poco que los investigadores entienden sobre el funcionamiento interno de los principales modelos de IA del mundo. Para abordar esto, Amodei estableció un ambicioso objetivo para que la IA antropica pueda detectar de manera confiable la mayoría de los problemas del modelo de IA para 2027.

Amodei reconoce el desafío que tiene por delante. En “la crisis de la interpretabilidad”, el CEO dice que Anthrope ha logrado avances tempranos al rastrear cómo los modelos llegan a sus respuestas, pero enfatiza que se necesita mucha más investigación para descifrar estos sistemas a medida que se vuelven más potentes.

“Estoy muy preocupado por la implementación de tales sistemas sin un mejor manejo de la interpretabilidad”, escribió Amodei en el informe. “Estos sistemas serán absolutamente fundamentales para la economía, la tecnología y la seguridad nacional, y tendrán tanta autonomía que considero que es básicamente inaceptable que la humanidad ignore totalmente cómo funcionan”.

Anthrope es una de las empresas pioneras en la interpretabilidad mecanicista, un campo que tiene como objetivo abrir la caja negra de los modelos de IA y comprender por qué toman las decisiones que toman. A pesar de los rápidos avances en el rendimiento de los modelos de IA en la industria tecnológica, todavía tenemos relativamente poca idea de cómo estos sistemas llegan a tomar decisiones.

Por ejemplo, Operai recientemente lanzó nuevos modelos de IA de razonamiento, O3 y O4-Mini, que funcionan mejor en algunas tareas, pero incluso se desvían más que sus otros modelos. La empresa no sabe por qué está sucediendo esto.

LEAR  Pequeña aldea de montaña en España donde un tercio de su población son extranjeros

“Cuando un sistema de IA generativo hace algo, como resumir un documento financiero, no tenemos idea, a un nivel específico o preciso, de por qué toma las decisiones que toma: por qué elige ciertas palabras sobre otras, o por qué ocasionalmente comete un error a pesar de ser preciso”, escribió Amodei en el informe.

En el informe, Amodei señala que el cofundador antropico Chris Olah dice que los modelos de IA se “cultivan más de lo que están construidos”. En otras palabras, los investigadores de IA han descubierto formas de mejorar la inteligencia del modelo de IA, pero no saben por qué.

En el informe, Amodei dice que podría ser peligroso avanzar hacia AGI, o como él lo llama, “un país de genios en un centro de datos” – sin comprender cómo funcionan estos modelos. En un informe anterior, Amodei afirmó que la industria tecnológica podría alcanzar ese hito para 2026 o 2027, pero cree que estamos muy lejos de comprender completamente estos modelos de IA.

A largo plazo, Amodei dice que a Anthrope le gustaría, en esencia, realizar “escaneos cerebrales” o “resonancias magnéticas” de modelos de IA de última generación. Estos chequeos ayudarían a identificar una amplia gama de problemas en los modelos de IA, incluidas sus tendencias a mentir, buscar poder u otras inclinaciones, dice. Esto podría llevar de cinco a diez años lograrlo, pero estas medidas serán necesarias para probar e implementar los futuros modelos de IA de Anthrope, agregó.

Anthrope ha logrado algunos avances de investigación que le han permitido comprender mejor cómo funcionan sus modelos de IA. Por ejemplo, la empresa recientemente encontró formas de rastrear las vías de pensamiento de un modelo de IA a través de cómo vehemencia la empresa, circuitos. Anthrope identificó un circuito que ayuda a los modelos de IA a comprender qué ciudades estadounidenses se encuentran en qué estados. La empresa solo ha descubierto algunos de estos circuitos, pero estima que hay millones en el interior de los modelos de IA.

LEAR  Manifestantes no están en contra del turismo, sino a favor de los locales

Anthrope ha estado invirtiendo en la investigación de interpretabilidad en sí, y recientemente realizó su primera inversión en una startup que trabaja en interpretabilidad. En el informe, Amodei pidió a Openai y Google Deepmind que aumenten sus esfuerzos de investigación en el campo.

Amodei insta a los gobiernos a imponer regulaciones de “toque de luz” para fomentar la investigación de interpretabilidad, como los requisitos para que las empresas revelen sus prácticas de seguridad. En el informe, Amodei incluso dice que Estados Unidos debería poner controles de exportación en chips a China, para evitar la posibilidad de una carrera de IA total fuera de control.

Anthrope siempre se ha destacado de Openai y Google por su enfoque en la seguridad. Mientras que otras empresas tecnológicas retrocedieron en la controvertida propuesta de seguridad de IA de California, SB 1047, Anthrope emitió un respaldo y recomendaciones modestas para el proyecto de ley que habría establecido estándares de informes de seguridad para los desarrolladores de modelos de IA fronteriza.

En este caso, Anthrope parece estar presionando por un esfuerzo de toda la industria para comprender mejor los modelos de IA, no solo aumentar sus capacidades.