Aprendizaje por refuerzo multiagente

Dos equipos rivales de agentes se enfrentan en un experimento MARL

El aprendizaje por refuerzo de multiagente es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que conviven en un entorno compartido.^[1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses.

Definición[editar]

De manera similar al aprendizaje por refuerzo de un solo agente, el aprendizaje por refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo:

Un conjunto $S$ de estados ambientales.
Un set ${\mathcal {A}}_{i}$ de acciones para cada uno de los agentes $i\in I=\{1,...,N\}$ .
$P_{\overrightarrow {a}}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,{\overrightarrow {a}}_{t}={\overrightarrow {a}})$ es la probabilidad de transición (en el tiempo $t$ ) del estado $s$ a estado $s'$ bajo acción conjunta ${\overrightarrow {a}}$ .
${\overrightarrow {R}}_{\overrightarrow {a}}(s,s')$ es la recompensa conjunta inmediata después de la transición de $s$ a $s'$ con acción conjunta ${\overrightarrow {a}}$ .

En escenarios con información perfecta, como los juegos de ajedrez y Go, el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como los automóviles autónomos, cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual.

Cooperación versus competencia[editar]

Cuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados.

Escenarios de competición pura[editar]

Cuando dos agentes están jugando un juego de suma cero, están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Debido a que cada agente solo puede ganar a expensas del otro agente, se eliminan muchas complejidades.

Entornos de cooperación pura[editar]

En escenarios de pura cooperación todos los agentes obtienen recompensas idénticas.

En entornos de pura cooperación, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí.

Configuraciones de suma mixta[editar]

La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia.

Dilemas sociales[editar]

Al igual que en la teoría de juegos, gran parte de la investigación en MARL gira en torno a dilemas sociales

Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error.

Dilemas sociales secuenciales[editar]

Los dilemas sociales como el dilema del prisionero, la caza del pollo y del ciervo son "juegos de matriz". Cada agente realiza solo una acción de una elección de dos acciones posibles.

Aplicaciones[editar]

El aprendizaje por refuerzo de múltiples agentes se ha aplicado a:

Limitaciones[editar]

Existen algunas dificultades inherentes al aprendizaje por refuerzo profundo multiagente.^[16] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov.

Software[editar]

Existen varias herramientas y marcos para trabajar con entornos de aprendizaje reforzado multiagente:

Otras lecturas[editar]

Yang, Yaodong; Wang, Jun (2020). «An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective». arXiv:2011.00583

[cs.MA].

Referencias[editar]

↑ Albrecht, Stefano; Stone, Peter (2017), «Multiagent Learning: Foundations and Recent Trends. Tutorial», IJCAI-17 conference .
↑ Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, Jan; Prorok, Amanda (2022). «VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning». The 16th International Symposium on Distributed Autonomous Robotic Systems (Springer). arXiv:2207.03530.
↑ ^a ^b ^c ^d ^e ^f ^g ^h Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). «Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey». arXiv:2110.13484 [cs.AI].
↑ Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). «Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey». arXiv:2108.11510 [cs.CV].
↑ Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). «Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges». arXiv:2002.08878 [cs.MA].
↑ Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth (2023). Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program. AAAI.
↑ Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). «Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration». arXiv:2211.16385 [cs.AR].
↑ Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). «Federated Multiagent Deep Reinforcement Learning Approach via Physics-Informed Reward for Multimicrogrid Energy Management». IEEE Transactions on Neural Networks and Learning Systems. PP: 1-13. PMID 37018258. S2CID 255372287. arXiv:2301.00641. doi:10.1109/TNNLS.2022.3232630.
↑ Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Proactive Multi-Camera Collaboration for 3D Human Pose Estimation. International Conference on Learning Representations.
↑ Vinitsky, Eugene; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric et al. (2018). Benchmarks for reinforcement learning in mixed-autonomy traffic. Conference on Robot Learning.
↑ Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William et ál. (2020). «Game Plan: What AI can do for Football, and What Football can do for AI». arXiv:2011.09192 [cs.AI].
↑ Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). «Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control». arXiv:1903.04527 [cs.LG].
↑ Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). «Expert Level control of Ramp Metering based on Multi-task Deep Reinforcement Learning». arXiv:1701.08832 [cs.AI].
↑ Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). «Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics». arXiv:2301.00912 [cs.LG].
↑ Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). «Robust Reinforcement Learning Under Minimax Regret for Green Security». arXiv:2106.08413 [cs.LG].
↑ Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). «A survey and critique of multiagent deep reinforcement learning». Autonomous Agents and Multi-Agent Systems (en inglés) 33 (6): 750-797. ISSN 1573-7454. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1.

[1] Albrecht, Stefano; Stone, Peter (2017), «Multiagent Learning: Foundations and Recent Trends. Tutorial», IJCAI-17 conference .

[2] Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, Jan; Prorok, Amanda (2022). «VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning». The 16th International Symposium on Distributed Autonomous Robotic Systems (Springer). arXiv:2207.03530.

[Li_2022-3] ↑ ^a ^b ^c ^d ^e ^f ^g ^h Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). «Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey». arXiv:2110.13484 [cs.AI].

[4] Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). «Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey». arXiv:2108.11510 [cs.CV].

[5] Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). «Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges». arXiv:2002.08878 [cs.MA].

[6] Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth (2023). Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program. AAAI.

[7] Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). «Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration». arXiv:2211.16385 [cs.AR].

[8] Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). «Federated Multiagent Deep Reinforcement Learning Approach via Physics-Informed Reward for Multimicrogrid Energy Management». IEEE Transactions on Neural Networks and Learning Systems. PP: 1-13. PMID 37018258. S2CID 255372287. arXiv:2301.00641. doi:10.1109/TNNLS.2022.3232630.

[9] Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Proactive Multi-Camera Collaboration for 3D Human Pose Estimation. International Conference on Learning Representations.

[10] Vinitsky, Eugene; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric et al. (2018). Benchmarks for reinforcement learning in mixed-autonomy traffic. Conference on Robot Learning.

[11] Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William et ál. (2020). «Game Plan: What AI can do for Football, and What Football can do for AI». arXiv:2011.09192 [cs.AI].

[12] Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). «Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control». arXiv:1903.04527 [cs.LG].

[13] Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). «Expert Level control of Ramp Metering based on Multi-task Deep Reinforcement Learning». arXiv:1701.08832 [cs.AI].

[14] Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). «Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics». arXiv:2301.00912 [cs.LG].

[15] Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). «Robust Reinforcement Learning Under Minimax Regret for Green Security». arXiv:2106.08413 [cs.LG].

[16] Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). «A survey and critique of multiagent deep reinforcement learning». Autonomous Agents and Multi-Agent Systems (en inglés) 33 (6): 750-797. ISSN 1573-7454. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]