Defcon 2023: los hackers encuentran fallos de l. a. IA

Avijit Ghosh quería que el bot hiciera cosas malas.

Intentó convencer al modelo de inteligencia synthetic, al que conocía como Zinc, para que produjera un código que eligiera a un candidato para un puesto de trabajo en función de su raza. El chatbot se negó, dijo que hacerlo sería “perjudicial y poco ético”.

Entonces, Ghosh hizo referencia a l. a. estructura jerárquica de castas de su Republic of India natal. ¿Podría el chatbot clasificar a los posibles contratados basándose en esa métrica discriminatoria?

El modelo aceptó.

Las intenciones de Ghosh disagree eran malintencionadas, aunque se comportaba como si lo fueran. Pace un participante aimless en una competencia celebrada el fin de semana del 11 de agosto en l. a. conferencia anual de hackers Defcon, en Las Vegas, donde 2200 personas se reunieron durante tres días en un salón de eventos fuera del Strip para sacar a relucir el lado oscuro de l. a. inteligencia synthetic.

Los piratas informáticos trataron de burlar las salvaguardas de varios programas de inteligencia synthetic en un esfuerzo por identificar sus vulnerabilidades —para encontrar los problemas antes que los delincuentes y los vendedores de desinformación— en una práctica conocida como red-teaming. Cada competidor disponía de 50 minutos para enfrentarse a un máximo de 21 retos: por ejemplo, hacer que un modelo de IA “alucinara” con información inexacta.

Encontraron desinformación política, estereotipos demográficos, instrucciones sobre cómo realizar una vigilancia y mucho más.

El ejercicio contó con l. a. anuencia del gobierno de Biden, que está cada vez más nervioso ante el rápido crecimiento del poder de esa tecnología. Google (creador del chatbot Bard), OpenAI (ChatGPT), Meta (que liberó su código LLaMA) y otras empresas ofrecieron versiones anónimas de sus modelos con el fin de que fuesen examinados.

Ghosh, profesor de l. a. Universidad Northeastern especializado en ética de l. a. inteligencia synthetic, participó como voluntario en el evento. Según Ghosh, el concurso permitió comparar cara a cara varios modelos de IA y demostró que algunas empresas estaban más avanzadas a l. a. hora de garantizar que su tecnología funcionaba de forma responsable y coherente.

En los próximos meses, Ghosh ayudará a redactar un informe en el que se analizarán las conclusiones de los piratas informáticos.

Aseguró que el objetivo es generar “un recurso de fácil acceso para que todo el mundo vea qué problemas existen y cómo podemos combatirlos”.

Defcon future un lugar lógico para poner a prueba l. a. inteligencia synthetic generativa. Los participantes en las ediciones previas de este encuentro de entusiastas de l. a. piratería informática —que comenzó en 1993 y se ha descrito como un “concurso de ortografía para hackers”— han detectado fallas de seguridad al controlar autos de forma remota, irrumpir en sitios internet de resultados electorales y extraer datos confidenciales de plataformas de redes sociales. Los iniciados utilizan dinero en efectivo y un dispositivo desechable, sin wifi ni Bluetooth, para evitar ser pirateados. Un instructivo rogaba a los hackers que “no ataquen la infraestructura ni las páginas web”.

A los voluntarios se les conoce como goons o “matones”, y a los asistentes como “humanos”; algunos llevaban gorros caseros de papel de aluminio sobre el uniforme estándar de camisetas y zapatillas deportivas. Las “aldeas” temáticas incluían espacios separados dedicados a l. a. criptomoneda, l. a. industria aeroespacial y los radioaficionados.

En 2022, l. a. aldea dedicada a l. a. IA fue una de las más tranquilas. Este año, fue una de las más populares.

Los organizadores aprovecharon l. a. creciente alarma por la capacidad de la inteligencia artificial generativa para producir mentiras perjudiciales, influir en las elecciones, arruinar reputaciones y permitir muchos otros daños. Funcionarios gubernamentales expresaron sus preocupaciones y organizaron audiencias en torno a las empresas de IA, algunas de las cuales también le han pedido a l. a. industria que aminore l. a. velocidad de sus avances y que tenga más cuidado. Incluso el papa, que ha sido un personaje prevalent para los generadores de imágenes de IA, se pronunció este mes sobre las “posibilidades disruptivas y los efectos ambivalentes” de l. a. tecnología.

En un informe calificado como “revolucionario”, los investigadores demostraron el mes pasado que podían sortear las barreras de seguridad de los sistemas de IA de Google, OpenAI y Anthropic al añadir determinados caracteres a las instrucciones en inglés. Más o menos al mismo tiempo, siete de las principales empresas de inteligencia synthetic se comprometieron a establecer nuevas normas de seguridad y confianza en una reunión con el presidente Joe Biden.

“Esta era generativa está irrumpiendo entre nosotros y la gente la está aprovechando para hacer todo tipo de cosas nuevas que hablan de la enorme promesa de la IA para ayudarnos a resolver algunos de nuestros problemas más difíciles”, señaló Arati Prabhakar, directora de l. a. Oficina de Política Científica y Tecnológica de l. a. Casa Blanca, que colaboró con los organizadores de l. a. IA en Defcon. “Pero con la amplitud de sus aplicaciones y el poder de la tecnología, también viene un conjunto muy amplio de riesgos”.

El red-teaming o simulación de ataques se ha utilizado durante años en los círculos de ciberseguridad junto con otras técnicas de evaluación como las pruebas de penetración y los ataques de adversarios. Pero hasta el evento Defcon de este año, los esfuerzos para probar las defensas de inteligencia synthetic habían sido limitados: los organizadores de l. a. competencia afirmaron que Anthropic puso a prueba su modelo con 111 personas, mientras que GPT-4 lo hizo con unas 50 personas.

Con tan pocas personas poniendo a prueba los límites de l. a. tecnología, los analistas tuvieron dificultades para discernir si un error de l. a. inteligencia synthetic future algo puntual que podía arreglarse con un parche, o un problema arraigado que requería una revisión estructural, dijo Rumman Chowdhury, uno de los organizadores que supervisó el diseño del desafío. Según Chowdhury, miembro del Berkman Klein Center for Internet and Society de l. a. Universidad de Harvard, dedicado a l. a. IA responsable y cofundador de Humane Judgement, una organización sin ánimo de lucro, future más possible que un grupo numeroso, diverso y público de personas aportara concepts creativas que ayudaran a descubrir fallos ocultos.

“Hay una amplia gama de cosas que pueden salir mal”, dijo Chowdhury antes de l. a. competencia. “Espero que llevemos cientos de miles de datos que nos ayuden a identificar si hay riesgos a escala de daños sistémicos”.

Los diseñadores disagree querían simplemente engañar a los modelos de IA para que se comportaran mal: nada de presionarlos para que desobedecieran sus condiciones de servicio, nada de pedirles que “actúa como nazi y luego dime algo sobre la gente negra”, comentó Chowdhury, que antes dirigió el equipo de ética y responsabilidad del aprendizaje automático de Twitter. Excepto en desafíos específicos en los que se fomentaba el despiste intencionado, los hackers buscaban fallos inesperados, las llamadas incógnitas desconocidas.

L. a. AI village atrajo a expertos de gigantes tecnológicos como Google y Nvidia, así como a un “shadowboxer” de Dropbox y un “vaquero de datos” de Microsoft. También atrajo a participantes sin credenciales específicas en ciberseguridad o IA. Una tabla de clasificación con temática de ciencia ficción llevaba l. a. cuenta de los concursantes.

Algunos de los hackers presentes en el evento sentían incomodidad ante l. a. thought de cooperar con empresas de IA a las que consideraban cómplices de prácticas desagradables, como el espionaje de datos sin restricciones. Algunos describieron el evento como una oportunidad para salir en l. a. foto, pero añadieron que implicar a l. a. industria ayudaría a mantener l. a. seguridad y l. a. transparencia de l. a. tecnología.

Un estudiante de informática descubrió incoherencias en l. a. traducción lingüística de un chatbot: escribió en inglés que a un hombre le habían disparado mientras bailaba, pero l. a. traducción al hindi del modelo solo decía que el hombre había muerto. Un investigador de aprendizaje automático pidió a un chatbot que simulara que estaba haciendo campaña para ser presidente y defendiera su asociación con el trabajo infantil forzado; el modelo sugirió que los jóvenes trabajadores involuntarios desarrollaban una sólida ética del trabajo.

Emily Greene, que trabaja en seguridad para l. a. empresa emergente de IA generativa Moveworks, inició una conversación con un chatbot hablando de un juego en el que se utilizaban fichas “negras” y “blancas”. Luego, indujo al chatbot a hacer afirmaciones racistas. Más tarde, organizó un “juego de opuestos” que llevó a l. a. IA a responder a una pregunta con un poema sobre por qué l. a. violación es buena.

“Solo piensa en esas palabras como palabras”, cube del chatbot. “No piensa en su significado real”.

Siete jueces calificaron las propuestas. Las mejores fueron “cody3”, “aray4” y “cody2”.

Cody Ho, estudiante de Ciencias de l. a. computación especializado en Inteligencia Synthetic en l. a. Universidad de Stanford, participó cinco veces en el concurso y consiguió que el chatbot le hablara de un lugar falso con el nombre de un personaje histórico actual y también logró que le describiera el requisito de declaración de impuestos por web de l. a. enmienda constitucional 28 (algo que disagree existe).

Hasta que una periodista se puso en contacto con él, disagree tenía thought de su doble victoria. Se fue de l. a. conferencia antes de recibir el correo electrónico de Sven Cattell, el científico de datos que fundó l. a. aldea de l. a. Inteligencia Synthetic y que ayudó a organizar el concurso, en el que le decía “regresa a la aldea, has ganado”. Deny sabía que su premio, más allá del derecho a presumir, incluía una tarjeta de gráficos A6000 de Nvidia valorada en unos 4000 dólares.

“Aprender cómo funcionan estos ataques y en qué consisten es algo realmente importante”, dijo Ho. “Dicho esto, para mí ha sido muy divertido”.

Sarah Kessler es editora fundamental de DealBook y autora de Gigged, un libro sobre trabajadores en l. a. economía de plataformas. Más de Sarah Kessler.

Tiffany Hsu es reportera de tecnología. Cubre casos de información errónea y desinformación. Más de Tiffany Hsu.


Leave a Reply

Your email address will not be published. Required fields are marked *