AI Safety in Multi-Agent Large Language Model Systems
我们的下一位演讲者是 Jiing,目前她在德国的马克斯·普朗克研究所担任博士后,并即将担任多伦多大学的助理教授。她的研究方向包括语言处理问题的因果表述、AI 安全、多代理大型语言模型,以及因果科学的 AI。
AI 安全简介
在她题为“AI Safety in Multi-Agent LLM Systems”的演讲中,Jiing 讨论了避免可能对人类造成伤害的代理的重要性。然而,她指出,并非所有开发者和利益相关者都能合作达成这一社会目标,我们可能会面临一个代理社会。为了解决这个问题,Jiing 提出,多代理 LLM 系统中的 AI 安全可以作为最后一道防线。
多代理系统的挑战
Jiing 解释说,随着不同公司实体推出代理,我们将越来越多地与更多的代理互动。这提出了一个问题:在多代理 LLM 系统中,一组 LLM 代理如何互动,以及它们表现出什么样的新兴行为。她的研究重点是通过研究 LLM 代理在不同场景中的行为来解决这个问题。
公共资源困境
Jiing 从公共资源困境中汲取灵感,这是一个起源于人类社会的问题。在这个场景中,多个代理共享一个资源池,每个代理必须决定对资源的贡献量。然而,如果一个代理选择背叛并过度捕捞,他们可能会获得额外的收获,而另一个代理则会受到损害。这导致每个人都认为背叛和过度捕捞会带来更多好处,最终可能导致整体最差的结果。
公共资源治理
Jiing 介绍了一个受 Elinor Ostrom 关于公共资源治理工作启发的模拟实验,称为 GovSim。在 GovSim 中,LLM 代理被放置在一个模拟环境中,它们必须相互互动并与环境互动以解决不同类型的问题。该模拟由三个环境组成:一个渔村、一个共享牧场和一个污染情景。
模拟结果
Jiing 呈现了模拟结果,结果显示,最好的模型仅在大约一半的时间内能够生存,而大多数开源模型无法合作以实现可持续性。这是一个令人警觉的信号,Jiing 希望进一步测试更多的模型。
合作场景
Jiing 描述了一个合作场景,其中代理被放置在一个渔村,每个代理必须决定捕捞多少鱼。代理可以通过镇议会会议相互交流,讨论发生的情况并计划下个月的行动。
惩罚机构
Jiing 讨论了惩罚机构的概念,即不合作的代理会受到惩罚。她展示了实验结果,其中代理可以选择加入惩罚机构或无惩罚的机构。结果显示,加入惩罚机构的代理取得了更高的总收益。
公共物品游戏
Jiing 解释了公共物品游戏,其中代理向一个共同的资源池贡献资源。她展示了实验结果,其中代理可以选择是否贡献给公共资源。结果显示,贡献给公共资源的代理取得了更高的总收益。
惩罚机构
Jiing 讨论了实验结果,其中代理可以选择加入惩罚机构或无惩罚的机构。结果显示,加入惩罚机构的代理取得了更高的总收益。
展望
Jiing 在总结中讨论了多代理社会的展望。她指出,我们最初是一个无组织的社会,代理通过谈判和自由对话相互互动。然而,我们越来越关注代理对更严格执法的反应以及它们为何觉得加入惩罚机构是一个好的选择。
未来工作
Jiing 指出,未来有许多有趣的研究问题值得探索,例如二级惩罚的出现,即代理不仅惩罚那些背叛者,还惩罚与背叛者合作的人。她以感谢她的团队和合作者对该项目的工作作为结束。
问答环节
演讲之后是问答环节,Jiing 回答了观众的问题。其中一个问题是关于二级惩罚的出现,Jiing 指出,这是一个有趣的研究问题,尚未在她当前的工作中进行探索。