סיווג בייסיאני נאיבי

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

סיווג בייסיאני נאיבי (או סיווג נאיב בייס - Naive Bayes classifier) בלמידת מכונה הוא אוסף שיטות סיווג המבוססות על חוק בייס‎ ועל ההנחה ה"נאיבית" שאין תלות בין תכונות האובייקטים המסווגים כאשר כבר ידוע סיווגם. שיטות סיווג אלה נחקרו כבר משנות ה-1950 ולמרות ה"נאיביות" של ההנחה, הניבו מאז תוצאות יפות, בעיקר בתחום של סיווג טקסט לקטגוריות (כמו למשל סיווג דואר אלקטרוני ל"ספאם" או "לא-ספאם"). היתרון של שיטות סיווג בייס נאיבי הוא הסְקֵילָבִּילִיות שלהם (כלומר יכולתם להתרחב בקלות כדי לתמוך בכמות גדלה של נתונים)[1].

המודל הכללי

המשימה היא לסווג אובייקט לאחד מ-k קטגוריות כאשר האובייקט מאופיין על ידי וקטור התכונות . ידועות ההסתברויות האפריוריות של הקטגוריות לכל k, וגם ידועות ההסתברויות המותנות של כל תכונה בנפרד בהינתן הקטגוריה. הסתברויות אלה ניתנות להערכה מתוך מדגם מייצג. בנוסף מניחים את ההנחה ה"נאיבית" שאם ידועה הקטגוריה אזי התכונות אינן תלויות זו בזו.

כדי למצוא את הקטגוריה הסבירה ביותר משווים את ההסתברויות המותנות ובוחרים את שמוביל להסתברות המותנית המקסימלית. לפי חוק בייס:


כיוון שהמכנה לא תלוי ב-k מספיק להשוות את המונים. בשל תכונה של ההסתברות המותנית, המונה שווה ל. לפי כלל השרשרת של הסתברות מותנית


בשל ההנחה הנאיבית, הבטוי האחרון שווה ל


כל המרכיבים של הביטוי האחרון כאמור נתונים ולכן ניתן להציבם, להשוות את התוצאות ל-k השונים, ולבחור את הקטגוריה שנותנת תוצאה מקסימלית[2][3].

דוגמה

ההנחה ה"נאיבית" של סיווג בייסיאני נאיבי

טבלה 1

1/40 = (שפעת)p

39/40 = (לא-שפעת)p

1/2 = (שפעת|כאב-ראש)p

7/78 = (לא-שפעת|כאב-ראש)p

2/3 = (שפעת|משתעל)p

1/6 = (לא-שפעת|משתעל)p

3/4 = (שפעת|חום)p

1/30 = (לא-שפעת|חום)p

נניח שברצוננו לסווג נבדקים לקטגורית "חולים בשפעת" או לקטגורית "לא חולים בשפעת"[3] בהתבסס על התכונות "כאב-ראש", "משתעל", ו-"חום" הנתונות לכל נבדק. במקרה זה, התכונות הללו הן בעלות ערכים אפשריים של "כן" או "לא" (מה שהופך את הבעיה לבעיית סיווג מסוג ברנולי). נניח שכתוצאה מידע מוקדם ידוע לנו שההסתברות להיות חולה בשפעת היא 1/40 = (שפעת)p (כלומר אדם אחד מכל 40 באוכלוסייה חולה בשפעת) וההסתברות לא להיות חולה בשפעת היא לכן 39/40 = (לא-שפעת)p.

באוכלוסייה הכללית הגיוני שיש תלות בין היות בן אדם משתעל והיות אדם עם חום גבוה. כלומר העובדה שיש לאדם חום מעלה את ההסתברות שהוא גם משתעל. כלומר

(משתעל)p < (חום|משתעל)p 

כאשר (משתעל)p היא ההסתברות שאדם אקראי משתעל ו (חום|משתעל)p היא ההסתברות המותנית שאדם משתעל אם כבר ידוע שיש לו חום. הנחנה ה"נאיבית" עליה מתבסס סיווג בייסיאני נאיבי היא שאם כבר יודעים שאדם חולה בשפעת אז כבר אין יותר תלות בין היותו משתעל להיותו בעל חום. כלומר הסיבה היחידה שהחום העלה את ההסתברות לשיעול הייתה שהחום העלה את ההסתברות לשפעת, והשפעת היא זאת שמסבירה לגמרי את קיום החום. מרגע שכבר ידוע שיש שפעת אז החום והשיעול הם בלתי תלויים. כלומר -

(שפעת|משתעל)p = (שפעת, חום|משתעל)p

כאשר (שפעת|משתעל)p היא כאמור ההסתברות שאדם משתעל אם כבר ידוע שיש לו שפעת, ו (שפעת, חום|משתעל)p היא ההסתברות שאדם משתעל אם כבר ידוע שיש לו שפעת וגם חום.

באופן כללי סיווג בייסיאני נאיבי מניח שאם כבר ידוע הסיווג אז ערכי התכונות בלתי תלויים עוד זה בזה. הנחה זאת היא כמובן אולי לא מדויקת, ולכן ערכי ההסתברויות הנובעים ממנה והמשמשים את הסיווג הינם אולי לא מדויקים. בכל זאת, ההנחה מאפשרת הקלה משמעותית במציאת הסיווגים ולמרבה המזל הסיווג הבייסיאני הנאיבי מצליח לסווג יפה במקרים רבים. אחת הסיבות לכך היא שתהליך הסיווג בעיקר מעוניין במציאת הסיווג הסביר ביותר לאובייקט (שפעת או לא-שפעת לנבדק בדוגמה שלנו) ולאו דווקא לקבל הסתברות מדויקת לכל סיווג. במקרים רבים למרות שההסתברות הנובעת מההנחה הנאיבית אינה מדויקת עבור שני סיווגים אפשריים, היא בכל זאת שומרת על סדר ההסתברות שלהם.

הסתברות אפריורית ופוסטיריורית

נניח שמדגם אוכלוסייה הראה שאחד מכל 40 איש חולה בשפעת. כלומר ניתן להעריך שההסתברות 1/40 = (שפעת)p. יש לשער שאם היינו מקבלים עוד עדויות על הנבדק (כמו אם יש לו חום) אזי ההסתברות לשפעת הייתה שונה. כל עוד אין לנו עדויות נוספות עלינו להסתפק בהסתברות (שפעת)p - הנקראת לכן ההסתברות האפריורית. כשמגיע נבדק חדש אנחנו יכולים למדוד את תכונותיו (כמו למשל אם יש לו חום) ובכך לחשב יותר במדויק את ההסתברות לשפעת. ההסתברות לסיווג מסוים (כמו שפעת) אחרי שמצטברות עדויות מכונה לכן ההסתברות האפוסטריורית. סיווג בייסיאני נאיבי מנסה לסווג אובייקט לפי ההסתברויות האפוסטריוריות שלו המחושבות על סמך העדויות הנובעות מהתכונות של האובייקט המסווג[3].

טבלה 1 מראה את הידע הנתון לנו כשמגיע נבדק חדש שאנו רוצים לסווג כחולה שפעת או לא (הנתונים בטבלה מומצאים ורק משמשים למטרת הסבר). בשורה הראשונה נתונות ההסתברויות האפריוריות של היות אדם חולה בשפעת או לא, לפני שמתקבלות עדויות נוספות. בטור הימני נתונות ההסתברויות המותנות לקיום כאב-ראש, שיעול, או חום אצל חולי שפעת והטור השמאלי מראה את ההסתברויות המותנות הנ"ל אצל אנשים שאינם חולי שפעת. למשל לפי הטבלה, שני שלישים מחולי השפעת משתעלים (2/3=(שפעת|משתעל)p). כל הנתונים בטבלה 1 ניתנים להערכה ממדגמים מייצגים של האוכלוסייה. הטבלה כעת תאפשר לנו לבצע תחזיות נוספות על נבדקים חדשים על סמך תכונותיהם, על ידי מציאת הסיווג הסביר ביותר (אפוסטריורית) של הנבדק.

מציאת הסיווג הסביר ביותר

נניח שמגיע נבדק עם כאב-ראש וחום אך ללא שיעול ואנחנו רוצים להשוות את ההסתברות שהוא חולה שפעת לעומת ההסתברות שאינו חולה שפעת ולבחור באפשרות עם ההסתברות המקסילמלית. כדי לקצר את הנוסחאות נשתמש בשמות המשתנים הבאים: שפעת=F, לא-שפעת=F, כאב-ראש=A, חום=B, לא-משתעל=C. אנחנו מעוניינים למצוא את המקסימלי מבין ו .

שני ביטויים אלה שווים לפי חוק בייס לביטויים הבאים:




אפשר מהנתונים בטבלה 1, יחד עם ההנחה הנאיבית, לחשב את שני השברים הנ"ל במלואם (ולקבל הערכה מקורבת של ההסתברויות הנובעת מההנחה הנאיבית), אך שימו לב שהמכנה של שני השברים הוא זהה ושכל הביטויים חיוביים ולכן כדי למצוא את השבר עם הערך המקסימלי מספיק להשוות את המונים של השברים. השיוויונים להלן מתבססים על תכונה כללית של הסתברות מותנית לפיה . נתחיל מהמונה הראשון:


המספרים המוצבים בסוף באים מטבלה 1. השוויון שלפניהם מתקיים בגלל ההנחה "הנאיבית" שאם נתונה הקטגוריה (F במקרה זה) אזי ההסתברות של תכונה לא תלויה בתכונות האחרות. כך למשל אם ידוע F אז A לא תלוי עוד ב B וב-C ולכן .

באותה דרך אפשר לחשב את המונה השני:


כיוון שהמונה הראשון גדול מהשני יוצא שההסתברות ל-F (שפעת) גדולה מההסתברות לF (לא שפעת) בהתחשב בתכונות הנבדק.

סיווג בייסיאני נאיבי גאוסיואני

בדוגמה שלמעלה (חיזוי שפעת על סמך תכונות) כל התכונות היו בדידות כלומר בעלות ערכים מתוך קבוצה סופית - למשל לתכונה "משתעל" היו שני ערכים אפשריים - "כן" או "לא". במצב כזה ניתן להעריך את ההסתברויות המותנות, כמו אלה המופיעות בטבלה 1, על ידי ספירת בעלי כל ערך של התכונה באוכלוסייה הנדגמת וחלוקה בגודל המדגם. דרך זאת אינה אפשריות עוד כאשר התכונות הן רציפות - כמו למשל גובה[1]. לתכונות כאלה יש אינסוף ערכים אפשריים ואי אפשר למלא טבלה כמו טבלה 1. במקום זאת, מעריכים לכל תכונה פונקציית התפלגות ומעריכים את הפרמטרים של הפונקציה בעזרת מדגם. למשל, בדרך כלל ללא מידע נוסף על התכונה הרציפה, מעריכים התפלגות נורמלית עבור התכונה ומעריכים את הממוצע ואת השונות (חסרת ההטיה) של המדגם עבור כל קטגוריה אפשרית (קבוצת הקטגוריות היא בדידה בבעיות סיווג)[4].

פונקציית התפלגות נורמלית היא בצורת פעמון גאוס וצפיפות ההסתברות כאשר לתכונה x יש את הערך v אם מניחים קטגוריה היא:


פונקציה זאת מחליפה את טבלת ההסתברויות המותנות (דוגמת טבלה 1). ראו דוגמה להלן.

דוגמה

המשימה היא לסווג נבדקים ל"גבר" או ל"אישה" על סמך גובה, משקל, ואורך כף רגל (כולן תכונות רציפות). נניח שהמדגם החזיר את התוצאות שבטבלה 2 (הנתונים בטבלה מומצאים ורק משמשים למטרת הסבר).

טבלה 2
מין גובה (במטרים) משקל (בק"ג) כף רגל (בס"מ)
גבר 1.83 81.65 30.5
גבר 1.80 86.18 28
גבר 1.70 77.11 30.5
גבר 1.80 74.84 25.4
אישה 1.52 45.36 15.24
אישה 1.68 68.04 20.3
אישה 1.65 58.97 17.8
אישה 1.75 68.04 22.9

ערכי הממוצע והשונות חסרת ההטיה הנובעים מטבלה 2 לכל קטגוריה (גבר או אישה) מופיעים בטבלה 3.

טבלה 3
מין ממוצע (גובה) שונות (גובה) ממוצע (משקל) שונות (משקל) ממוצע (כף רגל) שונות (כף רגל)
גבר 1.7825 10-33.225 79.945 25.29 28.6 5.94
אישה 1.65 10-39.266 60.10 115 19.1 10.82

כעת נניח שידועים הפרמטרים של אדם כבטבלה 4 וברצוננו להעריך אם מדובר בגבר או באישה.

טבלה 4
מין גובה (במטרים) משקל (בק"ג) כף רגל (בס"מ)
? 1.83 59 20.3

כדי לקצר את הנוסחאות הבאות נשתמש בשמות המשתנים הבאים: גבר=M, אישה=F, גובה=H, משקל=W, כף-רגל=L. נניח שידוע שההסתברויות האפריוריות של להיות גבר או אישה הם שווים, כלומר: . ההסתברות שהנבדק הוא גבר היא:


ההסתברות שהנבדק היא אישה היא:


כמו קודם, המכנים בשני השברים הם שווים ולכן מספיק להשוות את המונים.


כש- ו- (מספרים הלקוחים מטבלה 3).

שימו לב שהערך כאן יוצא יותר גדול מ-1, דבר שלא אפשרי להסתברות אך כאן מדובר בצפיפות הסתברות. חישובים דומים מראים ש:


ולכן המונה הראשון (עבור גבר) שווה


עבור האישה:


כלומר המונה של ההסתברות הפוסטיריורית עבור אישה גדול יותר משל עבור גבר ולכן אפשר להעריך שמדובר באישה.

סיווג מסמכים

סיווג בייסיאני נאיבי הניב תוצאות יפות בתחום של סיווג טקסט לקטגוריות - כמו למשל סיווג דואר אלקטרוני ל"ספאם" או "לא-ספאם", על סמך המילים הכלולות בטקסט. כל מסמך מאופיין על ידי אוסף המילים שבו. מכינים מראש את טבלת ההסתברויות המותנות (בדומה לטבלה 1): לכל מילה וקטגוריה מעריכים בעזרת מדגם את - ההסתברות המותנה שהמילה נמצאת במסמך בהנחה שהמסמך הוא מקטגוריה . כלומר המילה היא התכונה והערכים שלה הם "נמצאת במסמך" ו-"לא נמצאת במסמך". ישנן גם גישות אחרות למידול הבעיה, כמו בהן התכונה היא המקום במסמך והערך הוא המילה, או בהן הערך הוא מספר ההופעות של המילה, או שקלול של מספר זה[3][2]. ההסתברות לראות את כל המילים במסמך D בהנחה שמדובר במסמך מקטגוריה הוא


ישנה כאן הנחה מקלה שההסתברות לראות את המסמך D היא ההסתברות לראות את כל המילים שבו, כלומר מתייחסים כאן למילים כאילו הן מפוזרות באופן אקראי במסמך והסיכוי לראותן אינו תלוי למשל במקומן במסמך, באורך המסמך, במילים אחרות במסמך, וכו'. לפי חוק בייס, לכל קטגוריה מתקיים:


ערך המכנה לא תלוי בקטגוריה ולכן כדי למצוא את הקטגוריה הסבירה ביותר מספיק להשוות את המונים, הניתנים לחישוב כיוון שאת ערכי ו ניתן כאמור לאמוד מתוך מדגם של מסמכים נתונים[2].

קישורים חיצוניים

הערות שוליים

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

23341696סיווג בייסיאני נאיבי