מסווג דו-ערכי
בסטטיסטיקה ובלמידה חישובית, מסווג דו-ערכי הוא מסווג שמטרתו למיין את הפרטים בקבוצה לאחת משתי תת-קבוצות.
דוגמאות:
- מסנן ספאם בדואר אלקטרוני מסווג את ההודעות הנכנסות לספאם וללא-ספאם.
- בדיקה רפואית מאבחנת למחלה (האם המטופל חולה או בריא?).
- מפעיל מכ"ם שעליו לזהות האם האות המתקבל במכ"ם הוא של מטוס אויב או של עצם בלתי מזיק.
סיווג סטטיסטי
מדדי הערכה למסווג דו-ערכי
תיאור גרפי של מטריצת הטעות: הקו החוצה מפריד בין הפריטים החיוביים (משמאל) לבין הפריטים השליליים (מימין). האליפסה מתארת את המסווג: הפריטים בתוך האליפסה סומנו על ידי המסווג כחיוביים, ומחוץ לה – כשליליים. | ||||||||||||||
| ||||||||||||||
|
- ערך מורחב – מדדי הערכה למסווג דו-ערכי
אינטואיטיבית, קל לומר אם מסווג מסוים הוא "מוצלח" (כלומר, ממיין את פריטי הקבוצה בדרך שתואמת את ההיגיון שלנו) או לא. עם זאת, לצרכים מדעיים, קיים צורך לתת הערכה מספרית לביצועי המסווג. כדי לבצע זאת, יש צורך לבדוק את המסווג מול קבוצת נתונים קטנה יחסית, שבה ידוע לנו (מלכתחילה או בדיעבד) הסיווג הנכון, בעזרת מדד זהב כלשהו.
גם בהינתן מדד זהב, עדיין ניתן לבחור דרכים שונות להעריך מספרית את הצלחת המסווג (ראו מסגרת).
קיימים מספר יחסים פשוטים, המתארים את היחסים בין חלקים שונים של התרשים. למשל:
- רגישות מתארת את החלק היחסי של התוצאות החיוביות מתוך כלל הפריטים שאמורים היו להיות מסווגים כחיוביים.
- כלומר:
חיוביים אמיתייםכלל החיוביים = חיוביים אמיתייםחיוביים אמיתיים + שליליים כוזבים |
- סגוליות מתארת את החלק היחסי של התוצאות השליליות מתוך כלל הפריטים שהיו אמורים להיות מסווגים כשליליים.
שליליים אמיתייםכלל השליליים = שליליים אמיתייםשליליים אמיתיים + חיוביים כוזבים
|
בנוסף, קיימים מדדי הערכה פשוטים פחות, אבל יותר תמציתיים; למשל, מקדם מתאם מתיוז:
- ח"א ש"א - ח"כ ש"כ(ח"א + ח"כ)(ח"א + ש"כ)(ש"א + ח"כ)(ש"א + ש"כ)√
כאשר ח"א הוא מספר החיוביים האמיתיים; ח"כ הוא מספר החיוביים הכוזבים; ש"א הוא מספר השליליים האמיתיים; ש"כ הוא מספר השליליים הכוזבים.
- ניתן לומר, בהכללה, שמקדם מתאם מתיוז מתאר את המתאם בין המסווג למדד הזהב.
להלן איור המסכם את מטריצת הטעות וממדי ההערכה השונים, היסודיים והנגזרים, של מסווג דו-ערכי.
המרת ערכים רציפים לסיווג דו-ערכי
בהינתן קלט , על המסווג להחליט האם התוצאה חיובית או שלילית. דרך נפוצה לבצע זאת היא על ידי הגדרת פונקציית ניקוד . הניקוד מבטא את מידת ההערכה שתוצאה קרובה לחיובית או חיובית בעצמה. בנוסף, מגדירים פונקציית מדרגה התלויה ב-T (שנקרא ערך הסף, threshold) באופן הבא:
21739484מסווג דו-ערכי