למידת חיזוק

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

למידת חיזוק (נקרא גם: למידה באמצעות חיזוקים; באנגלית: Reinforcement learning או בקיצור: RL) הוא תחום במדעי המחשב של למידת מכונה הנוגע לאופן שבו סוכנים נוקטים פעולות בתוך סביבה כדי למקסם את הרווח המצטבר כתוצאה מהפעולות הללו. למידת חיזוק נחשבת לאחת משלוש הפרדיגמות של למידת מכונה, לצד למידה מונחית (Supervised learning) ולמידה בלתי מונחית (Unsupervised learning).

למידה בצורה זו שונה מן הלמידה המונחית בכך שקלט ופלט מתויג לא נדרש ופעולות שאינן אופטימליות לא מתוקנות באופן מפורש. במקום זאת, ההתמקדות היא במציאת איזון בין חקירה (של שטח לא נודע) לבין ניצול (של הידע הנוכחי).

הסביבה מאופיינת בדרך כלל כתהליך החלטה מרקובי (MDP), רבים מהאלגוריתמים הלומדים באמצעות חיזוקים משתמשים באלמנטים של תכנון דינמי. השוני העיקרי שבין תכנון דינמי קלאסי לבין למידת חיזוק הוא שבלמידת חיזוק אין ידע מוקדם והנחות לגבי המודל המדויק של ה-MDP ולכן שימוש בשיטה זו מתאים במיוחד כאשר המודלים הם גדולים ומורכבים ושיטות חישוב אנליטיות אינן מתאפשרות.

מודל הלמידה באמצעות חיזוקים מבוסס על למידה מתוך ניסוי וטעיה שמתבצעת בסדרת אינטראקציות בין סוכן לומד (רכיב תוכנה או רובוט) לבין סביבתו המיוצגת כמידע חושי (סנסורי) הזמין לסוכן הלומד. בכל אינטראקציה כזאת, מקבל הסוכן מידע מסביבתו לגבי המצב הנתון ובוחר לבצע פעולה ממרחב הפעולות הזמין לו בהתאם למדיניות הפעולה הנוכחית. בתגובה מתקבל אות תגמול שהוא ערך מספרי המבטא את חיוניות הפעולה בהתאם למצב ועל פיו מעדכן הסוכן את מדיניותו עבור האינטראקציות הבאות. מטרתו של הסוכן הלומד היא לגבש מדיניות פעולה הממפה בין מרחב המצבים האפשריים למרחב הפעולות כך שהתגמול הכולל (המבוטא כסכום משוקלל של אותות התגמול שהתקבלו החל מתחילת הניסוי) עבור ביצוע פעולות על סמך מדיניות זו יהיה גבוה ככל שניתן.

לרוב ניתן לתאר את בעיית הלמידה כתהליך החלטה מרקובי (Markov Decision Process), במקרה זה ניתן להפעיל בהתאם אלגוריתמים כגון:

כמו כן קיימות גרסאות של אלגוריתמים אלה עבור מקרים בהם התהליך המרקובי ניתן לצפייה חלקית בלבד (POMDP)

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא למידת חיזוק בוויקישיתוף


ערך זה הוא קצרמר בנושא מדעי המחשב. אתם מוזמנים לתרום למכלול ולהרחיב אותו.
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

34802192למידת חיזוק