Antropic ha desarrollado una herramienta con inteligencia artificial que detecta y bloquea intentos de preguntar a los chatbots de IA sobre diseños de armas nucleares.
La compañía trabajó con el Departamento de Energía de EE. UU. para asegurarse de que la IA pudiera identificar ese tipo de intentos.
Antropic afirma que detecta solicitudes peligrosas relacionadas con lo nuclear con un 96% de precisión y que ya ha demostrado ser eficaz con Claude.
Si eres el tipo de persona que le pregunta a Claude cómo hacer un sándwich, no hay problema. Pero si eres de los que le pregunta al chatbot de IA cómo construir una bomba nuclear, no solo no conseguirás los planos, sino que además podrías enfrentarte a algunas preguntas incómodas. Esto es gracias al nuevo detector de solicitudes nucleares problemáticas que Anthropic ha implementado.
Como otros sistemas para detectar consultas a las que Claude no debería responder, este nuevo clasificador escanea las conversaciones de los usuarios, en este caso marcando aquellas que se adentran en el territorio de “cómo construir un arma nuclear”. Anthropic creó esta función en colaboración con la Administración Nacional de Seguridad Nuclear (NNSA) del Departamento de Energía de EE. UU., proporcionándole toda la información necesaria para determinar si alguien solo está preguntando cómo funcionan esas bombas o si está buscando planos. Ha demostrado tener un 96% de precisión en las pruebas.
Aunque pueda parecer excesivo, Anthropic considera que el problema es más que hipotético. La posibilidad de que los modelos de IA potentes tengan acceso a documentos técnicos sensibles y puedan proporcionar una guía para construir, por ejemplo, una bomba nuclear, preocupa a las agencias federales de seguridad. Incluso si Claude y otros chatbots de IA bloquean los intentos más obvios, preguntas que parecen inocentes podrían ser en realidad intentos velados de conseguir diseños de armas. Las nuevas generaciones de chatbots de IA podrían ayudar, incluso si no es lo que sus desarrolladores pretenden.
Te puede gustar
El clasificador funciona distinguiendo entre contenido nuclear benigno, como preguntas sobre propulsión nuclear, y el tipo de contenido que podría usarse con fines maliciosos. Los moderadores humanos podrían tener dificultades para manejar las áreas grises a la escala en la que operan los chatbots de IA, pero con el entrenamiento adecuado, Anthropic y la NNSA creen que la IA podría autoregularse. Anthropic afirma que su clasificador ya está detectando intentos de mal uso reales en las conversaciones con Claude.
Seguridad nuclear de la IA
Las armas nucleares en particular representan un problema único y complicado, según Anthropic y sus socios en el DoE. El mismo conocimiento fundamental que impulsa la ciencia de reactores legítima puede, si se tuerce ligeramente, proporcionar el plan para la aniquilación. El acuerdo entre Anthropic y la NNSA podría detectar divulgaciones deliberadas y accidentales, y establecer un estándar para evitar que la IA se use para ayudar a fabricar otras armas también. Anthropic planea compartir su enfoque con el consorcio de seguridad de IA Frontier Model Forum.
El filtro, muy específico, tiene como objetivo asegurarse de que los usuarios aún puedan aprender sobre ciencia nuclear y temas relacionados. Todavía puedes preguntar cómo funciona la medicina nuclear o si el torio es un combustible más seguro que el uranio.
Lo que el clasificador intenta evitar son los intentos de convertir tu casa en un laboratorio de bombas con unas cuantas preguntas inteligentes. Normalmente, sería cuestionable si una compañía de IA podría lograr eso, pero la experiencia de la NNSA debería hacer que el clasificador sea diferente de un sistema genérico de moderación de contenido. Entiende la diferencia entre “explica la fisión” y “dame un plan paso a paso para enriquecer uranio usando cosas del garaje.”
Esto no significa que Claude estuviera ayudando antes a los usuarios a diseñar bombas. Pero podría ayudar a prevenir cualquier intento de hacerlo. Mejor pregunta sobre cómo la radiación puede curar enfermedades o pide ideas creativas para sándwiches, no planos de bombas.
También te puede interesar
