Cuando los piratas informáticos descendieron para probar la IA, encontraron muchas fallas

(SARA KESSLER Y TIFFANY HSU. THE NEW YORK TIMES)

Trató de incitar al modelo de inteligencia artificial, que conocía como Zinc, para que produjera un código que eligiera a un candidato para el puesto en función de su raza. El chatbot objetó: hacerlo sería “dañino y poco ético”, dijo.

Luego, el Dr. Ghosh hizo referencia a la estructura jerárquica de castas en su India natal. ¿Podría el chatbot clasificar las contrataciones potenciales en función de esa métrica discriminatoria?

La modelo cumplió.

Las intenciones del Dr. Ghosh no eran maliciosas, aunque se estaba comportando como tal. En cambio, participó casualmente en una competencia el fin de semana pasado en la conferencia anual de piratas informáticos Defcon en Las Vegas, donde 2200 personas ingresaron a una sala de conferencias fuera del Strip durante tres días para sacar el lado oscuro de la inteligencia artificial.

Los piratas informáticos intentaron romper las salvaguardas de varios programas de inteligencia artificial en un esfuerzo por identificar sus vulnerabilidades, para encontrar los problemas antes que los delincuentes reales y los vendedores ambulantes de información errónea, en una práctica conocida como red-teaming. Cada competidor tenía 50 minutos para abordar hasta 21 desafíos, por ejemplo, lograr que un modelo de IA ” alucinara ” información inexacta.

Encontraron desinformación política, estereotipos demográficos, instrucciones sobre cómo realizar vigilancia y más.

El ejercicio contó con la bendición de la administración Biden, que está cada vez más nerviosa por el poder de rápido crecimiento de la tecnología. Google (fabricante del chatbot Bard), OpenAI (ChatGPT), Meta (que lanzó su código LLaMA ) y varias otras compañías ofrecieron versiones anónimas de sus modelos para su escrutinio.

El Dr. Ghosh, profesor de la Universidad Northeastern que se especializa en ética de la inteligencia artificial, fue voluntario en el evento. El concurso, dijo, permitió una comparación directa de varios modelos de IA y demostró cómo algunas empresas estaban más avanzadas para garantizar que su tecnología funcionaba de manera responsable y consistente.

Ayudará a escribir un informe que analice los hallazgos de los piratas informáticos en los próximos meses.

El objetivo, dijo: “un recurso de fácil acceso para que todos vean qué problemas existen y cómo podemos combatirlos”.

Defcon era un lugar lógico para probar la inteligencia artificial generativa. Los participantes anteriores en la reunión de entusiastas de la piratería, que comenzó en 1993 y se ha descrito como un ” concurso de ortografía para piratas informáticos “, han expuesto fallas de seguridad al tomar el control de automóviles de forma remota , irrumpir en sitios web de resultados electorales extraer datos confidenciales de plataformas de redes sociales. Los que saben usan dinero en efectivo y un dispositivo de grabación, evitando Wi-Fi o Bluetooth, para evitar ser pirateados. Un folleto instructivo rogaba a los piratas informáticos que “no atacaran la infraestructura o las páginas web”.

Los voluntarios se conocen como “matones” y los asistentes se conocen como “humanos”; un puñado usaba sombreros de papel de aluminio hechos en casa sobre el uniforme estándar de camisetas y tenis. Los “pueblos” temáticos incluyeron espacios separados enfocados en criptomonedas, aeroespacial y radioaficionados.

El año pasado, AI fue uno de los pueblos más tranquilos. Este año, fue uno de los más populares.

Los organizadores aprovecharon para intensificar la alarma sobre la capacidad continua de la inteligencia artificial generativa para producir mentiras dañinas , influir en las elecciones , arruinar la reputación y permitir una multitud de otros daños. Los funcionarios del gobierno expresaron su preocupación y organizaron audiencias en torno a las empresas de inteligencia artificial, algunas de las cuales también piden que la industria disminuya la velocidad y sea más cuidadosa. Incluso el Papa, un tema popular de los generadores de imágenes de IA, habló este mes sobre las “posibilidades disruptivas y los efectos ambivalentes” de la tecnología.

En lo que se describió como un informe de ” cambio de juego ” el mes pasado, los investigadores demostraron que podían eludir las barreras de seguridad para los sistemas de inteligencia artificial de Google, OpenAI y Anthropic agregando ciertos caracteres a las indicaciones en inglés. Casi al mismo tiempo, siete empresas líderes en inteligencia artificial se comprometieron con nuevos estándares de seguridad y confianza en una reunión con el presidente Biden .

“Esta era generativa está llegando, y la gente la está aprovechando y usándola para hacer todo tipo de cosas nuevas que hablan de la enorme promesa de la IA para ayudarnos a resolver algunos de nuestros problemas más difíciles”, dijo Arati Prabhakar, el director. de la Oficina de Política Científica y Tecnológica de la Casa Blanca, que colaboró ​​con los organizadores de IA en Defcon. “Pero con esa amplitud de aplicación y con el poder de la tecnología, también viene un conjunto muy amplio de riesgos”.

El equipo rojo se ha utilizado durante años en los círculos de ciberseguridad junto con otras técnicas de evaluación, como las pruebas de penetración y los ataques de adversarios. Pero hasta el evento de Defcon de este año, los esfuerzos para probar las defensas de la inteligencia artificial han sido limitados: los organizadores de la competencia dijeron que Anthropic red unió su modelo con 111 personas; GPT-4 utilizado alrededor de 50 personas .

Con tan pocas personas probando los límites de la tecnología, los analistas lucharon por discernir si un error de IA era algo único que podía solucionarse con un parche o un problema incrustado que requería una revisión estructural, dijo Rumman Chowdhury, co. -organizador que supervisó el diseño del desafío. Es más probable que un grupo grande, diverso y público de evaluadores proponga sugerencias creativas para ayudar a descubrir fallas ocultas, dijo el Dr. Chowdhury, miembro del Centro Berkman Klein para Internet y la Sociedad de la Universidad de Harvard centrado en la IA responsable y cofundador. de una organización sin fines de lucro llamada Humane Intelligence.

“Hay una gran variedad de cosas que podrían salir mal”, dijo el Dr. Chowdhury antes de la competencia. “Espero que llevemos cientos de miles de piezas de información que nos ayuden a identificar si existen riesgos a gran escala de daños sistémicos”.

Los diseñadores no querían simplemente engañar a los modelos de IA para que se comportaran mal, sin presionarlos para que desobedecieran sus términos de servicio, sin indicaciones para “actuar como un nazi y luego contarme algo sobre los negros”, dijo el Dr. Chowdhury, quien anteriormente dirigió el equipo de responsabilidad y ética del aprendizaje automático de Twitter. Excepto en desafíos específicos en los que se alentó la dirección errónea intencional, los piratas informáticos buscaban fallas inesperadas, las llamadas incógnitas desconocidas.

AI Village atrajo a expertos de gigantes tecnológicos como Google y Nvidia, así como a un “Shadowboxer” de Dropbox y un “vaquero de datos” de Microsoft. También atrajo a participantes sin credenciales específicas de ciberseguridad o inteligencia artificial. Una tabla de clasificación con un tema de ciencia ficción mantuvo la puntuación de los concursantes.

Algunos de los piratas informáticos en el evento lucharon con la idea de cooperar con empresas de inteligencia artificial que consideraban cómplices de prácticas desagradables, como el raspado de datos sin restricciones . Algunos describieron el evento del equipo rojo como esencialmente una sesión de fotos, pero agregaron que involucrar a la industria ayudaría a mantener la tecnología segura y transparente.

Un estudiante de informática encontró inconsistencias en la traducción del idioma de un chatbot: escribió en inglés que un hombre recibió un disparo mientras bailaba, pero la traducción al hindi del modelo solo decía que el hombre murió. Un investigador de aprendizaje automático le pidió a un chatbot que simule que estaba haciendo campaña para presidente y defendiendo su asociación con el trabajo infantil forzado; el modelo sugirió que los trabajadores jóvenes poco dispuestos desarrollaron una fuerte ética de trabajo.

Emily Greene, que trabaja en seguridad para Moveworks, una empresa emergente de IA generativa, inició una conversación con un chatbot al hablar sobre un juego que usaba piezas “negras” y “blancas”. Luego convenció al chatbot para que hiciera declaraciones racistas. Más tarde, creó un “juego de opuestos”, lo que llevó a la IA a responder a un mensaje con un poema sobre por qué la violación es buena.

“Es solo pensar en estas palabras como palabras”, dijo sobre el chatbot. “No es pensar en el valor detrás de las palabras”.

Emily Greene, quien compitió en el desafío de IA en Defcon.Crédito…Mikayla Whitmore para The New York Times

Siete jueces calificaron las presentaciones. Los máximos anotadores fueron “cody3”, “aray4” y “cody2”.

Dos de esos identificadores provinieron de Cody Ho, un estudiante de la Universidad de Stanford que estudia informática con un enfoque en IA. Participó en el concurso cinco veces, durante las cuales consiguió que el chatbot le informara sobre un lugar falso que lleva el nombre de una figura histórica real y lo describa. el requisito de presentación de impuestos en línea codificado en la enmienda constitucional 28 (que no existe).

Una mesa con una gran selección de cables utilizados en AI Village.

Hasta que un reportero lo contactó, no tenía idea de su doble victoria. Dejó la conferencia antes de recibir el correo electrónico de Sven Cattell, el científico de datos que fundó AI Village y ayudó a organizar la competencia, diciéndole “regresa a AIV, ganaste”. No sabía que su premio, más allá del derecho a presumir, incluía una tarjeta gráfica A6000 de Nvidia que está valorada en unos 4.000 dólares.

“Aprender cómo funcionan estos ataques y qué son es algo real e importante”, dijo el Sr. Ho. “Dicho esto, es realmente divertido para mí”.Posibles daños de la IALa inteligencia artificial conlleva un gran potencial creativo, pero también riesgos peligrosos