T-SNE

t-distributed stochastic neighbor embedding) t-SNE) הוא אלגוריתם בלמידה חישובית להורדת ממדים, שפותח על ידי לורנס ואן דר מאטן וג'פרי הינטון.

זאת שיטה לא-ליניארית להורדת ממדים שמתאימה במיוחד להורדת מימד של מרחבים ממימד גבוה למרחבים מממד 2 או 3 (מפות). האלגוריתם ממדל כל אובייקט מהמרחב הרב-ממדי בעזרת נקודה דו ממדית או תלת ממדית כך שאובייקטים דומים ימודלו לנקודות קרובות זו לזו, ואובייקטים רחוקים ימודלו לנקודות רחוקות זו מזו.

אלגוריתם ה-t-SNE כולל שני שלבים עיקריים. בהתחלה האלגוריתם בונה התפלגות עבור כל זוג אובייקטים ממימד גבוה כך שלאובייקטים דומים יש הסתברות גבוהה להיבחר, בעוד שלאובייקטים לא דומים יש הסתברות נמוכה מאוד (אינפיניטסימלית) להיבחר. שנית, האלגוריתם מגדיר התפלגות באופן דומה עבור כל זוג נקודות במפה ממימד נמוך. לאחר מכן האלגוריתם מנסה להביא למינימום את דיברגנץ קולבק-ליבלר (Kullback–Leibler divergence) בין שתי ההתפלגויות, ביחס למיקומים של הנקודות על המפה. האלגוריתם המקורי משתמש במרחק אוקלידי כדי למצוא מרחק בין שני אובייקטים, אך ניתן להשתמש במטריקות אחרות לחישוב המרחק.

אלגוריתם t-SNE שימושי במגוון רחב של תחומים, כגון אבטחת מחשב אישי ברשת, ניתוח מוזיקלי, חקר הסרטן וביואינפורמטיקה.

פרטי האלגוריתם

בהינתן סט של $N$ אובייקטים ממימד גבוה, $\mathbf {x} _{1},\dots ,\mathbf {x} _{N}$ , האלגוריתם מחשב קודם את ההסתברויות $p_{ij}$ שהן פרופורציוניות לדמיון בין האובייקטים $\mathbf {x} _{i}$ ו $\mathbf {x} _{j}$ , באופן הבא:

$p_{j|i}={\frac {\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{j}\rVert ^{2}/2\sigma _{i}^{2})}{\sum _{k\neq i}\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{k}\rVert ^{2}/2\sigma _{i}^{2})}},$

$p_{ij}={\frac {p_{j|i}+p_{i|j}}{2N}}$

כאשר $\sigma _{i}$ נקבע כך שה-perplexity (מידת השוואה להתפלגויות) של ההתפלגויות שהוגדרו (Q,P) יהיה שווה ל-perplexity מסוים שנקבע מראש על ידי חיפוש בינארי.

מטרת ה-t-SNE היא ללמוד מפה $d$ -ממדית $\mathbf {y} _{1},\dots ,\mathbf {y} _{N}$ ( עם $\mathbf {y} _{i}\in \mathbb {R} ^{d}$ ), שמשקפת את $p_{ij}$ בצורה כמה שיותר טובה. בשביל מטרה זו היא מודדת את $q_{ij}$ , הדמיון בין 2 נקודות במפה, $\mathbf {y} _{i}$ ו $\mathbf {y} _{j}$ , בצורה דומה לחישוב $p_{ij}$ :

$q_{ij}={\frac {(1+\lVert \mathbf {y} _{i}-\mathbf {y} _{j}\rVert ^{2})^{-1}}{\sum _{k\neq l}(1+\lVert \mathbf {y} _{k}-\mathbf {y} _{l}\rVert ^{2})^{-1}}}$

האלגוריתם משתמש בהתפלגות t כדי למדוד דמיון בין נקודות על המפה.

מיקום הנקודות $\mathbf {y} _{i}$ במפה נקבעות על ידי מינימיזציה של דיברגנץ קולבק-ליבלר של ההתפלגות Q מההתפלגות P, כלומר הבאה למינימום של: $KL(P||Q)=\sum _{i\neq j}p_{ij}\,\log {\frac {p_{ij}}{q_{ij}}}$