Aprendizaje por refuerzo multiagente
El aprendizaje por refuerzo de multiagente es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que conviven en un entorno compartido.[1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses.
Definición[editar]
De manera similar al aprendizaje por refuerzo de un solo agente, el aprendizaje por refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo:
- Un conjunto de estados ambientales.
- Un set de acciones para cada uno de los agentes .
- es la probabilidad de transición (en el tiempo ) del estado a estado bajo acción conjunta .
- es la recompensa conjunta inmediata después de la transición de a con acción conjunta .
En escenarios con información perfecta, como los juegos de ajedrez y Go, el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como los automóviles autónomos, cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual.
Cooperación versus competencia[editar]
Cuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados.
Escenarios de competición pura[editar]
Cuando dos agentes están jugando un juego de suma cero, están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Debido a que cada agente solo puede ganar a expensas del otro agente, se eliminan muchas complejidades.
Entornos de cooperación pura[editar]
En escenarios de pura cooperación todos los agentes obtienen recompensas idénticas.
En entornos de pura cooperación, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí.
Configuraciones de suma mixta[editar]
La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia.
Dilemas sociales[editar]
Al igual que en la teoría de juegos, gran parte de la investigación en MARL gira en torno a dilemas sociales
Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error.
Dilemas sociales secuenciales[editar]
Los dilemas sociales como el dilema del prisionero, la caza del pollo y del ciervo son "juegos de matriz". Cada agente realiza solo una acción de una elección de dos acciones posibles.
Aplicaciones[editar]
El aprendizaje por refuerzo de múltiples agentes se ha aplicado a:
- Broadband cellular networks such as 5G[3]
- Content caching[3]
- Packet routing[3]
- Computer vision[4]
- Network security[3]
- Transmit power control[3]
- Computation offloading[3]
- Language evolution research[5]
- Global health[6]
- Integrated circuit design[7]
- Internet of Things[3]
- Microgrid energy management[8]
- Multi-camera control[9]
- Autonomous vehicles[10]
- Sports analytics[11]
- Traffic control[12] (Ramp metering[13])
- Unmanned aerial vehicles[14][3]
- Wildlife conservation[15]
Limitaciones[editar]
Existen algunas dificultades inherentes al aprendizaje por refuerzo profundo multiagente.[16] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov.
Software[editar]
Existen varias herramientas y marcos para trabajar con entornos de aprendizaje reforzado multiagente:
Otras lecturas[editar]
- Yang, Yaodong; Wang, Jun (2020). «An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective».
.
Referencias[editar]
- ↑ Albrecht, Stefano; Stone, Peter (2017), «Multiagent Learning: Foundations and Recent Trends. Tutorial», IJCAI-17 conference.
- ↑ Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, Jan; Prorok, Amanda (2022). «VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning». The 16th International Symposium on Distributed Autonomous Robotic Systems (Springer). arXiv:2207.03530.
- ↑ a b c d e f g h Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). «Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey». .
- ↑ Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). «Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey». .
- ↑ Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). «Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges». .
- ↑ Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth (2023). Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program. AAAI.
- ↑ Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). «Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration». .
- ↑ Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). «Federated Multiagent Deep Reinforcement Learning Approach via Physics-Informed Reward for Multimicrogrid Energy Management». IEEE Transactions on Neural Networks and Learning Systems. PP: 1-13. PMID 37018258. S2CID 255372287. arXiv:2301.00641. doi:10.1109/TNNLS.2022.3232630.
- ↑ Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Proactive Multi-Camera Collaboration for 3D Human Pose Estimation. International Conference on Learning Representations.
- ↑ Vinitsky, Eugene; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric et al. (2018). Benchmarks for reinforcement learning in mixed-autonomy traffic. Conference on Robot Learning.
- ↑ Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William et ál. (2020). «Game Plan: What AI can do for Football, and What Football can do for AI». .
- ↑ Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). «Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control». .
- ↑ Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). «Expert Level control of Ramp Metering based on Multi-task Deep Reinforcement Learning». .
- ↑ Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). «Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics». .
- ↑ Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). «Robust Reinforcement Learning Under Minimax Regret for Green Security». .
- ↑ Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). «A survey and critique of multiagent deep reinforcement learning». Autonomous Agents and Multi-Agent Systems (en inglés) 33 (6): 750-797. ISSN 1573-7454. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1.