למידת חיזוק מרובת סוכנים

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש
שני צוותים יריבים של סוכנים מתמודדים בניסוי MARL

למידת חיזוק מרובה סוכנים (באנגלית: Multi-Agent Reinforcement Learning (MARL)) היא תת-תחום של למידת חיזוק, ונמצאת על קו התפר בין בינה מלאכותית למערכות מרובות סוכנים (אנ'). מחקר בתחום מתמקד בהתנהגותם של סוכנים המתקיימים במקביל בסביבה משותפת. כל סוכן עושה פעולות לקידום האינטרסים שלו; בסביבות מסוימות אינטרסים אלו מנוגדים לאינטרסים של סוכנים אחרים, וכיוצא מכך נוצרת דינמיקה קבוצתית מורכבת.

למידת חיזוק רב-סוכנים קשורה קשר הדוק לתורת המשחקים ובמיוחד לתת-תחום של משחקים חוזרים. המחקר בתחום משלב את השאיפה למציאת אלגוריתמים אידיאליים שממקסמים את התגמולים עם מערכת מושגים סוציולוגית. בעוד מחקר בלמידת חיזוק של סוכן יחיד עוסק במציאת האלגוריתם שמקבל את מספר הנקודות הגדול ביותר עבור סוכן אחד, מחקר בלמידת חיזוק מרובת סוכנים מעריך ומכמת מדדים חברתיים, כגון שיתוף פעולה,[1] הדדיות,[2] שוויון,[3] השפעה חברתית,[4] שפה[5] ואפליה.[6]

הערות שוליים

  1. ^ Lowe, Ryan; Wu, Yi (2020). "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments". arXiv:1706.02275v4 [cs.LG].
  2. ^ Baker, Bowen (2020). "Emergent Reciprocity and Team Formation from Randomized Uncertain Social Preferences". NeurIPS 2020 proceedings. arXiv:2011.05373.
  3. ^ Hughes, Edward; Leibo, Joel Z.; et al. (2018). "Inequity aversion improves cooperation in intertemporal social dilemmas". NeurIPS 2018 proceedings. arXiv:1803.08884.
  4. ^ Jaques, Natasha; Lazaridou, Angeliki; Hughes, Edward; et al. (2019). "Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning". Proceedings of the 35th International Conference on Machine Learning. arXiv:1810.08647.
  5. ^ Lazaridou, Angeliki (2017). "Multi-Agent Cooperation and The Emergence of (Natural) Language". ICLR 2017. arXiv:1612.07182.
  6. ^ Duéñez-Guzmán, Edgar; et al. (2021). "Statistical discrimination in learning agents". arXiv:2110.11404v1 [cs.LG].
ערך זה הוא קצרמר בנושא מדעי המחשב. אתם מוזמנים לתרום למכלול ולהרחיב אותו.
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

36167779למידת חיזוק מרובת סוכנים