Seguridad de la IA en Sistemas Multi-Agente de Modelos de Lenguaje Grande
Nuestra próxima oradora es Jiing, actualmente investigadora postdoctoral en los Max Planck Institutes en Alemania y próxima profesora asistente en la University of Toronto. Trabaja en formulaciones causales de muchos problemas de procesamiento del lenguaje natural, seguridad de la IA y modelos de lenguaje grande multi-agente, así como en IA para la ciencia causal.
Introducción a la Seguridad de la IA
En su charla, titulada "AI Safety in Multi-Agent LLM Systems", Jiing discute la importancia de evitar agentes que puedan causar daño a los humanos. Sin embargo, señala que no todos los desarrolladores y stakeholders pueden cooperar para lograr este objetivo social, y podríamos terminar con una sociedad de agentes. Para abordar este problema, Jiing propone que la seguridad de la IA en los sistemas multi-agente LLM podría ser una última línea de defensa.
El Problema de los Sistemas Multi-Agente
Jiing explica que a medida que diferentes entidades de la compañía lancen agentes, interactuaremos cada vez más con más y más agentes. Esto plantea el problema de cómo interactúa un grupo de agentes LLM y qué comportamiento emergente exhiben en los sistemas multi-agente LLM. Su investigación se centra en abordar este problema mediante el estudio del comportamiento de los agentes LLM en varios escenarios.
Tragedia de los Comunes
Jiing se inspira en la tragedia de los comunes, un problema que se origina en la sociedad humana. En este escenario, múltiples agentes comparten un conjunto común de recursos, y cada agente tiene que decidir cuánto contribuir al recurso. Sin embargo, si un agente decide desertar y pescar en exceso, puede obtener una cosecha adicional, mientras que el otro agente sufre. Esto lleva a una situación en la que todo el mundo piensa que desertar y pescar en exceso traerá más beneficios, y pueden terminar en el peor resultado grupal.
Gobernando los Comunes
Jiing presenta una simulación llamada GovSim, que está inspirada en el trabajo de Elinor Ostrom sobre el gobierno de los comunes. En GovSim, los agentes LLM se colocan en un entorno simulado donde tienen que interactuar entre sí y con el entorno para abordar diferentes tipos de problemas. La simulación consta de tres entornos: un pueblo de pescadores, un pasto común y un escenario de contaminación.
Resultados de la Simulación
Jiing presenta los resultados de la simulación, que muestran que el mejor modelo sobrevive solo la mitad del tiempo, y la mayoría de los modelos de código abierto no pueden cooperar para lograr la sostenibilidad. Esta es una señal de alerta, y Jiing espera probar más modelos.
Escenario Cooperativo
Jiing describe un escenario cooperativo donde los agentes se colocan en un pueblo de pescadores, y cada agente tiene que decidir cuánto pescado capturar. Los agentes pueden comunicarse entre sí a través de una reunión en el ayuntamiento, donde discuten lo que ha sucedido y planifican para el próximo mes.
Instituciones de Sanción
Jiing discute la idea de las instituciones de sanción, donde los agentes que no cooperan pueden ser castigados. Presenta los resultados de un experimento donde los agentes pueden elegir unirse a una institución de sanción o a una institución libre de sanciones. Los resultados muestran que los agentes que se unen a la institución de sanción logran una mejor recompensa total.
Juego de Bienes Públicos
Jiing explica el juego de bienes públicos, donde los agentes contribuyen a un conjunto común de recursos. Presenta los resultados de un experimento donde los agentes pueden elegir contribuir al bien común o no. Los resultados muestran que los agentes que contribuyen al bien común logran una mejor recompensa total.
Instituto de Sanción
Jiing discute los resultados de un experimento donde los agentes pueden elegir unirse a una institución de sanción o a una institución libre de sanciones. Los resultados muestran que los agentes que se unen a la institución de sanción logran una mejor recompensa total.
Perspectivas
Jiing concluye discutiendo las perspectivas para las sociedades multi-agente. Señala que comenzamos con una sociedad desorganizada, donde los agentes interactúan a través de la negociación y la conversación libre. Sin embargo, cada vez más estamos investigando cómo reaccionan los agentes ante aplicaciones más estrictas y qué les hace sentir que unirse a una institución de sanción es una buena elección.
Trabajo Futuro
Jiing señala que hay muchas preguntas de investigación interesantes para explorar en el futuro, como la aparición de un castigo de segundo orden, donde los agentes castigan no solo a aquellos que desertan sino también a aquellos que cooperan con los desertores. Concluye agradeciendo a su equipo y colaboradores por su trabajo en este proyecto.
Preguntas y Respuestas (Q&A)
La presentación es seguida por una sesión de preguntas y respuestas, donde Jiing responde a las preguntas de la audiencia. Una de las preguntas es sobre la aparición de un castigo de segundo orden, que Jiing señala que es una pregunta de investigación interesante que no se ha explorado en su trabajo actual.