AI Safety trong các Multi-Agent Large Language Model Systems
Diễn giả tiếp theo của chúng ta là Jiing, hiện là nghiên cứu sinh sau tiến sĩ tại Max Planck Institutes ở Đức và là trợ lý giáo sư sắp tới tại University of Toronto. Cô ấy nghiên cứu về các công thức nhân quả của nhiều vấn đề xử lý ngôn ngữ tự nhiên, AI safety và multi-agent large language models, cũng như AI cho khoa học nhân quả.
Giới thiệu về AI Safety
Trong bài nói của mình, có tựa đề "AI Safety in Multi-Agent LLM Systems", Jiing thảo luận về tầm quan trọng tránh các tác nhân có thể gây hại cho con người. Tuy nhiên, cô lưu ý rằng không phải tất cả các nhà phát triển và các bên liên quan đều có thể hợp tác để đạt được mục tiêu xã hội này và chúng ta có thể kết thúc với một xã hội tác nhân. Để giải quyết vấn đề này, Jiing đề xuất rằng AI safety trong multi-agent LLM systems có thể là tuyến phòng thủ cuối cùng.
Vấn đề của Multi-Agent Systems
Jiing giải thích rằng khi các thực thể công ty khác nhau tung ra các tác nhân, chúng ta sẽ ngày càng tương tác với ngày càng nhiều tác nhân hơn. Điều này đặt ra vấn đề về cách một nhóm tác nhân LLM tương tác và chúng thể hiện hành vi nổi trội nào trong multi-agent LLM systems. Nghiên cứu của cô tập trung vào việc giải quyết vấn đề này bằng cách nghiên cứu hành vi của các tác nhân LLM trong các tình huống khác nhau.
Tragedy of the Commons
Jiing lấy cảm hứng từ tragedy of the commons, một vấn đề bắt nguồn từ xã hội loài người. Trong kịch bản này, nhiều tác nhân chia sẻ một nhóm tài nguyên chung và mỗi tác nhân phải quyết định đóng góp bao nhiêu cho tài nguyên đó. Tuy nhiên, nếu một tác nhân quyết định đào tẩu và đánh bắt quá mức, họ có thể thu hoạch thêm, trong khi tác nhân khác phải chịu đựng. Điều này dẫn đến một tình huống mà mọi người đều nghĩ rằng đào tẩu và đánh bắt quá mức sẽ mang lại nhiều lợi ích hơn và cuối cùng họ có thể rơi vào một kết quả tồi tệ nhất cho nhóm.
Governing the Commons
Jiing giới thiệu một mô phỏng có tên GovSim, được lấy cảm hứng từ công trình của Elinor Ostrom về governing the commons. Trong GovSim, các tác nhân LLM được đặt trong một môi trường mô phỏng, nơi chúng phải tương tác với nhau và với môi trường để giải quyết các loại vấn đề khác nhau. Mô phỏng bao gồm ba môi trường: một làng chài, một đồng cỏ chung và một kịch bản ô nhiễm.
Kết quả mô phỏng
Jiing trình bày kết quả của mô phỏng, cho thấy mô hình tốt nhất chỉ tồn tại khoảng một nửa thời gian và hầu hết các mô hình nguồn mở không thể hợp tác để đạt được tính bền vững. Đây là một tín hiệu cảnh báo và Jiing mong muốn thử nghiệm thêm các mô hình.
Kịch bản hợp tác
Jiing mô tả một kịch bản hợp tác, trong đó các tác nhân được đặt trong một làng chài và mỗi tác nhân phải quyết định bắt bao nhiêu cá. Các tác nhân có thể giao tiếp với nhau thông qua một cuộc họp ở tòa thị chính, nơi họ thảo luận về những gì đã xảy ra và lên kế hoạch cho tháng tới.
Các tổ chức xử phạt
Jiing thảo luận về ý tưởng về các tổ chức xử phạt, nơi các tác nhân không hợp tác có thể bị trừng phạt. Cô trình bày kết quả của một thử nghiệm, trong đó các tác nhân có thể chọn tham gia một tổ chức xử phạt hoặc một tổ chức không xử phạt. Kết quả cho thấy các tác nhân tham gia tổ chức xử phạt đạt được tổng lợi nhuận tốt hơn.
Public Goods Game
Jiing giải thích public goods game, trong đó các tác nhân đóng góp vào một nhóm tài nguyên chung. Cô trình bày kết quả của một thử nghiệm, trong đó các tác nhân có thể chọn đóng góp vào lợi ích chung hay không. Kết quả cho thấy các tác nhân đóng góp vào lợi ích chung đạt được tổng lợi nhuận tốt hơn.
Sanctioning Institute
Jiing thảo luận về kết quả của một thử nghiệm, trong đó các tác nhân có thể chọn tham gia một tổ chức xử phạt hoặc một tổ chức không xử phạt. Kết quả cho thấy các tác nhân tham gia tổ chức xử phạt đạt được tổng lợi nhuận tốt hơn.
Triển vọng
Jiing kết luận bằng cách thảo luận về triển vọng cho các xã hội multi-agent. Cô ấy lưu ý rằng chúng ta bắt đầu với một xã hội vô tổ chức, nơi các tác nhân tương tác thông qua đàm phán và trò chuyện tự do. Tuy nhiên, chúng ta ngày càng xem xét cách các tác nhân phản ứng với các biện pháp thực thi nghiêm ngặt hơn và điều gì khiến họ cảm thấy rằng việc tham gia một tổ chức xử phạt là một lựa chọn tốt.
Công việc tương lai
Jiing lưu ý rằng có nhiều câu hỏi nghiên cứu thú vị cần khám phá trong tương lai, chẳng hạn như sự xuất hiện của hình phạt bậc hai, nơi các tác nhân trừng phạt không chỉ những người đào tẩu mà còn cả những người hợp tác với những người đào tẩu. Cô kết luận bằng cách cảm ơn nhóm và những người cộng tác của mình vì công việc của họ trong dự án này.
Hỏi đáp
Bài thuyết trình được tiếp nối bằng một phiên hỏi đáp, nơi Jiing trả lời các câu hỏi từ khán giả. Một trong những câu hỏi là về sự xuất hiện của hình phạt bậc hai, mà Jiing lưu ý là một câu hỏi nghiên cứu thú vị chưa được khám phá trong công việc hiện tại của cô.