מודל דיפוזיה

מודל דיפוזיה (באנגלית: Diffusion model) הוא סוג של מודל גנרטיבי ללמידת מכונה שתוכנן על ידי ג'ונתן הו ועמיתיו מאוניברסיטת קליפורניה בשנת 2020^[1]

בהינתן סט אימון, ניתן להשתמש במודל בשביל ללמוד את ההתפלגות שממנה מגיעים הנתונים, וכתוצאה מכך ניתן להשתמש בו בשביל ליצור דגימות חדשות שנראות כמו דגימות ששייכות למאגר הנתונים. לדוגמה, מודל שאומן על מאגר תצלומים של בני אדם, יוכל ליצור תצלומים חדשים של בני אדם שנראים אותנטיים ומכילים מאפיינים מציאותיים רבים. דוגמאות למודלי דיפוזיה מוכרים הם DALL-E של OpenAI או parti של גוגל.

היסטוריה

הרעיון של מודל דיפוזיה הועלה לראשונה ב-2015 במחקר שפורסם על ידי גסצ'ה סול דיקסטיין ועמיתיו בתור אופציה נוספת על פני מודלים גנרטיבים אחרים כגון GAN.^[2]

ב-2021 זכה לתהודה כאשר המודל DALL-E של OpenAi העושה שימוש במודל, הצליח ליצור תמונות מפורטות במגוון סגנונות. התחום קיבל גל חדש של עניין בשל כך וחברות רבות עלו עם מודלי דיפוזיה משלהם.

תהליך האימון

תהליך האימון מתחלק לשני חלקים, בחלק הראשון מוסיפים רעש גאוסיאני לתמונת האימון בהדרגה והמודל לומד את ההתפלגות הפוסטריורית $q (x_{1... T} | x_{0})$ (התפלגות המצבים בשרשרת המרקוב בהינתן התמונה ההתחלתית). בשלב השני הופכים את התהליך ומנסים לשחזר את התמונה המקורית מהתמונה עם הרעש על ידי הורדת הרעש שנוסף בכל שלב והמודל לומד את ההתפלגות ההפוכה $p_{θ} (x_{t - 1} | x_{t})$ (התפלגות התמונה בהינתן תמונה עם הוספת רעש).

שלב הוספת הרעש

בכל שלב מוסיפים רעש גאוסיאני לתמונת האימון וממשיכים כך באופן באופן איטרטיבי מספר קבוע של פעמים $T$ (בדרך כלל $T$ גדול מספיק כך שהתמונה הופכת לרעש גאוסיאני ללא אפשרות לזיהוי של התמונה המקורית).

את תהליך הוספת הרעש אפשר לתאר על ידי שרשרת מרקוב $q (x_{1... T} | x_{0}) = \prod_{t = 1}^{T} q (x_{t} | x_{t - 1}) = \prod_{t = 1}^{T} N (x_{t}; \sqrt{1 - β_{t}} x_{t - 1}, β_{t} I)$ כאשר $t$ מייצגת את מספר האיטרציה ו- $β$ מייצגת את גודל הצעד ( $β$ נקבעת לפי המתזמן שבחרנו). אפשר לחשב את האיטרציה ה- $t$ בחישוב אחד על ידי $q (x_{t} | x_{0}) = N (x_{t}; \sqrt{\bar{a_{t}}} x_{0}, 1 - \bar{a_{t}})$ כאשר $a_{t} = 1 - β_{t}$ ו- $\bar{a_{t}} = \prod_{s = 1}^{t} a_{s}$ .

שלב ניחוש הרעש שנוסף

בשלב זה לוקחים את תמונת הרעש מהשלב הקודם ומנסים לשחזר ממנה את התמונה המקורית בעזרת רשת עצבית מלאכותית שמקבלת את התמונה $x_{t}$ ומנסה לנחש את הרעש שנוסף לתמונה $x_{t - 1}$ (מנסים לנחש את הרעש ולא את התמונה $x_{t - 1}$ ישירות מכיוון שזה נותן תוצאה טובה יותר. אפשר להשיג את התמונה $x_{t - 1}$ ברגע שיש לנו את הרעש) ואת התהליך נבצע $T$ פעמים עד שנקבל את התמונה המשוחזרת. את התהליך אפשר לתאר כשרשרת מרקוב $p_{θ} (x_{1... T}) = p (x_{T}) \prod_{t = 1}^{T} p_{θ} (x_{t - 1} | x_{t})$ כאשר $p (x_{T})$ היא ההסתברות ההתחלתית למצב $x_{T}$ (התפלגות גאוסיאנית).

לקריאה נוספת

Jonathan Ho, Denoising Diffusion Probabilistic Models
Alex Nichol, Improved Denoising Diffusion Probabilistic Models
Prafulla Dhariwal, Diffusion Models Beat GANs on Image Synthesis

קישורים חיצוניים

מימוש מודל פיזור, במחברת colab
הסבר מפורט על המתמטיקה של מודל הפיזור באתר assemblya
סרטון המסביר על מודלי פיזור באתר יוטיוב
הסבר על המודל

הערות שוליים

↑ Jonathan Ho, Ajay Jain, Pieter Abbeel, Denoising Diffusion Probabilistic Models, 2020
↑ ascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, Surya Ganguli, Deep Unsupervised Learning using Nonequilibrium Thermodynamics, Proceedings of the 32nd International Conference on Machine Learning, 2015, עמ' 2256-2265

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

מודל דיפוזיה38242873Q114617315

[1] Jonathan Ho, Ajay Jain, Pieter Abbeel, Denoising Diffusion Probabilistic Models, 2020

[2] scha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, Surya Ganguli, Deep Unsupervised Learning using Nonequilibrium Thermodynamics, Proceedings of the 32nd International Conference on Machine Learning, 2015, עמ' 2256-2265

[1]

[2]