מדדי הערכה למסווג דו-ערכי

**מטריצת טעות**
	תיאור גרפי של מטריצת הטעות: הקו החוצה מפריד בין הפריטים החיוביים (משמאל) לבין הפריטים השליליים (מימין). האליפסה מתארת את המסווג: הפריטים בתוך האליפסה סומנו על ידי המסווג כחיוביים, ומחוץ לה – כשליליים.
	קיום התופעה על פי מדד הזהב
קיימת	לא קיימת
מדדים שבריים פשוטים
רגישות	מספר החיוביים האמיתייםמספר הקיימים
שיעור שליליים כוזבים	מספר השליליים הכוזביםמספר הקיימים
סגוליות	מספר השליליים האמיתייםמספר הלא-קיימים
שיעור חיוביים כוזבים	מספר החיוביים הכוזביםמספר הלא-קיימים
ערך ניבוי חיובי	מספר החיוביים האמיתייםמספר המסווגים חיובית
ערך ניבוי שלילי	מספר השליליים האמיתייםמספר המסווגים שלילית

בסטטיסטיקה ובמדעים, מדדי הערכה למסווג דו-ערכי (או: בינארי) מודדים את איכותו של מסווג, אם ידוע הסיווג הנכון.

מסווג דו-ערכי הוא אלגוריתם הממיין את הפריטים באוכלוסיית המדגם לאחת משתי קבוצות, בשאיפה להיות דומה עד כמה שניתן לסיווג הנכון שלהם. במקרים רבים, מסווג דו-ערכי נוצר כדי להבחין בין פריטים שיש להם תכונה מסוימת (או קבוצת תכונות) לבין פריטים שחסרים אותה, במטרה להעריך האם תופעה כזו או אחרת התרחשה. במובן זה, המסווג הוא מבחן.

נאמר שפריט הוא "חיובי" אם הוא עבר את המבחן, ו"שלילי" אם לא. למשל, בדיקה הסופרת את מספר תאי הדם הלבנים בדגימת דם, ומנסה לחזות (לפי כמות תאי הדם הלבנים) האם הנבדק חולה או בריא היא דוגמה למסווג דו-ערכי.

מסווגים דו-ערכיים נפוצים בתחומים רבים של המדע, ובהם: בדיקת השערות, אפידמיולוגיה, אחזור מידע, בקרת איכות, ועוד. בשל השוני הגדול בצרכים של כל אחד מהתחומים, נפוצים בהם מדדים שונים. כך, למשל, ברפואה נפוצים מדדי רגישות וסגוליות, ואילו בלמידה חישובית, המדדים הנפוצים הם דיוק וכיסוי.

מטריצת הטעות

כדי להעריך את ביצועי המסווג, נדרש "מדד זהב" לתופעה הנמדדת, כלומר: מסווג שהוא מהימן לחלוטין (או קרוב לכך) למדידת קיום התופעה. מדד הזהב לא משמש בפועל כמסווג, משיקולים שונים: לעיתים לא ניתן להשתמש בו על מספר פריטים רב, משיקולי עלות או סיכון; פעמים אחרות, ניתן לסווג את הפריטים רק בשלב מאוחר מדי (למשל: המחלה תתפרץ בשלב מאוחר יותר, ומחפשים מסווג שיזהה אותה לפני שתתפרץ).

ניתן, עם זאת, להשוות בין הסיווג שביצע מדד הזהב על מספר מוגבל של פריטים לבין ביצועי המסווג. המסווג בדרך כלל אינו מושלם; הוא עלול לסווג פריט כחיובי כאשר הוא באמת שלילי, או להפך. שגיאות כאלו נקראות שגיאות מסוג I ו-II, או "חיובי כוזב" ו"שלילי כוזב", בהתאמה.

הצגה חזותית לשגיאות אלו מתבצעת בעזרת מטריצת טעות (ראו מסגרת).

אם נוספות בשולי הטבלה גם ההתפלגויות השוליות לכל אחד מהמסווגים, נהוג לקרוא למטריצה טבלת תלות, או טבלת שכיחות דו-ממדית.

דוגמה מספרית

טבלת התלות הבאה מתארת נתונים ממחקר מסוים לגבי יעילות בדיקת דם סמוי בצואה בזיהוי סרטן המעי הגס. במקרה זה, ניתן לבצע גם אנדוסקופיה, אלא שזהו תהליך חודרני, ולכן מועדפת האפשרות לבדיקת צואה.

		מחלה בסרטן המעי הגס (לפי בדיקת אנדוסקופיה)
		חולה	בריא	סך הכול
תוצאת בדיקת דם סמוי בצואה	תוצאה חיובית	20	180	200
תוצאת בדיקת דם סמוי בצואה	תוצאה שלילית	10	1820	1830
	סך הכול	30	2000	2030

אם נחלק את כל אחד מהתאים בגודל המדגם (2030), נקבל אומדן לשיעור של כל אחת מהאפשרויות באוכלוסייה כולה.

מדדים שבריים פשוטים

בעזרת חישוב החלקים היחסיים של המשבצות השונות במטריצת הטעות, ניתן לקבל אומדן להסתברות המותנית של הסיווגים השונים באוכלוסייה כולה. ניתן לחלק כל אחת מהשכיחויות בכלל הסיווגים התואמים (סכום השורה) או בכלל המצבים התואמים (סכום הטור) – ולבחירה זו יש השפעה גדולה על היכולת להסיק מסקנות מהאומדן, בפרט כאשר יש הבדל גדול בין התפוצה של אחת משתי הקבוצות.

רגישות ושיעור שליליים כוזבים

ערך מורחב – רגישות (מדד)

רגישות (נקראת לעיתים גם שיעור חיובים אמיתיים, שיעור הפגיעה, כיסוי או רמת סמך, מסומנת בקיצור: TPR, ראשי תיבות של המילים True Positive Rate) היא שיעור הסיווגים לקבוצה "חיובי" מתוך כלל הפריטים החיוביים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כחיובי, בהינתן שמדד הזהב קבע שהפריט הוא חיובי:

רגישות = חיוביים אמיתיים פריטים חיובים = חיוביים אמיתיים חיוביים אמיתיים + שליליים כוזבים

רגישות (מדד) =

\mathrm {se} =\mathrm {TPR} ={\frac {\mathrm {TP} }{\mathrm {P} }}={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FN} }}

במילים אחרות, הוא משקף את מידת ההצלחה לנבא נכונה שפריט הוא חיובי.

שיעור שליליים כוזבים (או: שיעור ההחטאה; מסומן בקיצור: FNR, ראשי תיבות של המילים False Negative Rate) הוא שיעור הסיווגים לקבוצה "שלילי" מתוך כלל הפריטים החיוביים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כשלילי, בהינתן שמדד הזהב קבע שהפריט הוא חיובי:

שיעור שליליים כוזבים = שליליים כוזבים פריטים חיובים = שליליים כוזבים חיוביים אמיתיים + שליליים כוזבים

הקשר בין שני המדדים,

רגישות = שיעור שליליים כוזבים - 1

נובע מהעובדה שהם אומדים הסתברויות מותנות משלימות זו לזו.

סגוליות ושיעור חיוביים כוזבים

ערך מורחב – סגוליות

סגוליות (נקראת לעיתים גם שיעור שליליים אמיתיים או שיעור דחיות נכונות; מסומנת בקיצור: SPC, קיצור של המונח האנגלי Specificity) היא שיעור הסיווגים לקבוצה "שלילי" מתוך כלל הפריטים השליליים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כשלילי, בהינתן שמדד הזהב קבע שהפריט הוא שלילי:

סגוליות = שליליים אמיתיים פריטים שליליים = שליליים אמיתיים שליליים אמיתיים + חיוביים כוזבים

סגוליות (מדד) =

\mathrm {sp} =\mathrm {TNR} ={\frac {\mathrm {TN} }{\mathrm {N} }}={\frac {\mathrm {TN} }{\mathrm {TN} +\mathrm {FP} }}

במילים אחרות, הוא משקף את מידת ההצלחה לנבא נכונה שפריט הוא שלילי.

שיעור חיוביים כוזבים (נקרא לעיתים גם: נפולת, רמת מובהקות או שיעור אזעקות השווא; מסומן בקיצור: FPR, ראשי תיבות של המילים False Positive Rate) הוא שיעור הסיווגים לקבוצה "חיובי" מתוך כלל הפריטים השליליים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כחיובי, בהינתן שמדד הזהב קבע שהפריט הוא שלילי:

שיעור חיוביים כוזבים = חיוביים כוזבים פריטים שליליים = חיוביים כוזבים שליליים אמיתיים + חיוביים כוזבים

הקשר בין שני המדדים,

סגוליות = שיעור חיוביים כוזבים - 1

נובע מהעובדה שהם אומדים הסתברויות מותנות משלימות זו לזו

ערכי ניבוי

ערכים מורחבים – ערך ניבוי חיובי, ערך ניבוי שלילי

ערך ניבוי חיובי (נקרא לעיתים גם דיוק; מסומן בקיצור PPV, ראשי תיבות של המילים Positive Predictive Value) הוא שיעור הפריטים החיוביים לפי מדד הזהב מתוך כלל הפריטים שסווגו לקבוצה "חיובי". כאומדן, הוא משקף את ההסתברות המותנית שהפריט חיובי, בהינתן שהוא סווג כחיובי:

PPV = חיוביים אמיתיים פריטים מסווגים חיובית = חיוביים אמיתיים חיוביים אמיתיים + חיוביים כוזבים

ערך ניבוי חיובי =

\mathrm {PPV} ={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FP} }}

= ההסתברות להיות חולה בהינתן שתוצאת הבדיקה חיובית

ערך ניבוי שלילי (מסומן בקיצור NPV, ראשי תיבות של המילים Negative Predictive Value) הוא שיעור הפריטים השליליים לפי מדד הזהב מתוך כלל הפריטים שסווגו לקבוצה "שלילי". כאומדן, הוא משקף את ההסתברות המותנית שהפריט שלילי, בהינתן שהוא סווג כשלילי:

NPV = שליליים אמיתיים פריטים מסווגים שלילית = שליליים אמיתיים שליליים אמיתיים + שליליים כוזבים

נכונות

ערך מורחב – דיוק ונכונות

נכונות (לפעמים נקראת גם מדד ראנד) היא שיעור הסיווגים הנכונים. כאומדן היא משקפת את שיעור הסיווגים הנכונים מתוך כלל האוכלוסייה:

זיהויים נכונים גודל האוכלוסייה = חיוביים אמיתיים + שליליים אמיתיים חיוביים אמיתיים + חיוביים כוזבים + שליליים אמיתיים + שליליים כוזבים

נכונות =

\mathrm {ACC} ={\frac {\mathrm {TP} +\mathrm {TN} }{\mathrm {P} +\mathrm {N} }}={\frac {\mathrm {TP} +\mathrm {TN} }{\mathrm {TP} +\mathrm {TN} +\mathrm {FP} +\mathrm {FN} }}

מדדים נגזרים

המדדים המופיעים לעיל פשוטים לחישוב מתוך נתוני המדגם, אבל לעיתים רבות, החוקרים מעוניינים בתכונות מסוימות של המדגם (כאומדן לאוכלוסייה); לפעמים, יש צורך במדד אחד שניתן להביא למקסימום או למינימום, ובכך למצוא את הסיווג הטוב ביותר, לפי דרישות המערכת. מדדים שונים פותחו לשם כך. להלן רשימה חלקית:

יחסי נראות

ערך מורחב – יחס נראות

בתחום בדיקות האבחון הסיווג (כלומר, הבדיקה) מבוצע על מנת לברר את מצבו הרפואי של החולה. מעצם העובדה שיש תוצאות כוזבות (שליליות או חיוביות) מובן ששתוצאת הבדיקה לא אומרת בהכרח האם המטופל חולה או בריא. כדי להעריך האם אדם אמנם חולה או בריא, יש צורך להשתמש בחוק בייס: אם נסמן את המאורע "תוצאת בדיקה חיובית" ב-A ואת המאורע "המטופל חולה" ב-B, נוסחת בייס אומרת כי $P(B|A)={\tfrac {P(A|B)\cdot P(B)}{P(A)}}$ , כאשר משמעות הסימון $$ P(X|Y) $$ היא ההסתברות ל- $$ X $$ בהינתן $$ Y $$ .

דרך נוחה יחסית לשימוש בחוק בייס היא באמצעות מעבר ליחסי הסתברויות ויחסי נראות: אם יש למאורע מסוים הסתברות $$ p $$ להתרחש, אז יחס ההסתברויות מחושב כ- ${\tfrac {p}{1-p}}$ . יחסי הנראות מחושבים בעזרת המדדים השבריים:

יחס נראות חיובי	יחס נראות שלילי
LR₊‎ = רגישותסגוליות-1 = ${\tfrac {TPR}{FPR}}$	LR_-‎ = רגישות-1סגוליות = ${\tfrac {FNR}{SPC}}$

יחס הנראות מאפשר ללמוד כיצד תוצאת הבדיקה תשפיע על הערכת מצבו של המטופל.

מקרה לדוגמה: ההסתברות שמטופל מסוים חולה במחלה זאת או אחרת מוערכת להיות $$ p $$ על בסיס נתונים החיצוניים לבדיקה (למשל, גיל, משקל, היסטוריה רפואית). אם התקבלה תוצאה חיובית בבדיקה, יחס הנראות (החיובי) מאפשר לחשב את יחס ההסתברויות שלו להיות חולה בהינתן תוצאת הבדיקה ( $$ O' $$ ), על ידי שימוש ביחס ההסתברויות שלו להיות חולה לפני הבדיקה ( $$ O $$ ):

O'=O\cdot LR_{+}

.^[1].

כמו כן, מגדירים יחס יחסי הסתברויות (DOR):

DOR={\frac {LR_{+}}{LR_{-}}}

שמשמש בעצמו כמדד לטיב הסיווג: ככל שיחס יחסי ההסתברויות גבוה יותר, כך המתאם בין המסווג למדד הזהב טוב יותר.

ניתן להרחיב את יחס הנראות גם לסיווגים שאינם דו-ערכיים, אם מחשבים את יחסי הנראות עבור כל אחת מקטגוריות הסיווג. במקרה זה, מחשבים את הרגישות והסגוליות לכל אחת מהקטגוריות, ומחשבים בעזרתן את השינוי בהסתברות לקטגוריה מסוינת, בהינתן שהמסווג סיווג את הפריט באותה קטגוריה.

מדד F

במדעי המחשב, ובפרט בלמידה חישובית ובאחזור מידע, היו נפוצים למשך תקופה ארוכה שני מדדים מרכזיים: הדיוק והכיסוי. הרצון למצוא מדד אחד שיסמן את איכות הסיווג הביא לפיתוחו של מדד F. המדד מחושב מתוך הדיוק (ערך הניבוי החיובי) והכיסוי (הרגישות):

F_{1}={\frac {2}{{\frac {1}{PPV}}+{\frac {1}{TPR}}}}

והוא הממוצע ההרמוני של שני מדדים אלו. ניתן לתת משקל שונה לכל אחד מהמדדים, ואז תתקבל נוסחה כללית יותר, המסומנת לרוב כ-F_β:

F_{\beta }={\frac {1+\beta ^{2}}{{\frac {1}{PPV}}+{\frac {\beta ^{2}}{TPR}}}}

אחד החסרונות המשמעותיים למדד זה הוא העובדה שהוא לא מודד את מספר השליליים האמיתיים. בנוסף, הוא מושפע מאד משיעור ההימצאות.

מיודעות ומסומננות

מיודעות (informedness) מכמתת את המידה שבה הסיווג הוא מושכל (במילים אחרות: עד כמה ניתן לסמוך עליו). היא נתונה כהסתברות לסיווג מושכל, ביחס לניחוש באקראי. במקרה של מסווג דו-ערכי, היא נתונה בנוסחה: ${\text{informedness}}=\mathrm {TPR} -\mathrm {FPR} =\mathrm {TPR} +\mathrm {SPC} -1$

מסומננות (markedness) מכמתת את המידה שבה המסווג מסוגל להבחין בין הקטגוריות השונות. היא נתונה כהסתברות שהקטגוריות מובחנות זו מזו, ביחס לניחוש באקראי. במקרה של מסווג דו-ערכי, היא נתונה בנוסחה: ${\text{markedness}}=\mathrm {PPV} -\mathrm {FOR} =\mathrm {PPV} +\mathrm {NPV} -1$ (FOR הוא שיעור ההשמטות הכוזבות, כלומר מספר השליליים הכוזבים ביחס לכלל הסיווגים השליליים)

אחד היתרונות המשמעותיים של שני מדדים אלו שהם לא מושפעים משיעור ההימצאות, או מההטיה של המסווג (כלומר, היחס בין מספר הפריטים שהוא מסווג כחיוביים לבין מספר הפריטים הכולל).

מתאם מת'יוז

מקדם המתאם של מת'יוז מודד את המתאם בין הסיווג למדד הזהב.

קיימות כמה דרכים שקולות לחשב אותו:

ניתן לחשב אותו ישירות מתוך מספר החיובים והשליליים האמיתיים והכוזבים:

{\text{MCC}}={\frac {TP\times TN-FP\times FN}{\sqrt {(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}}

הוא שווה גם לממוצע הגאומטרי בין המיודעות למסומננות.

בנוסף, הוא שווה (בערכו המוחלט) לסטטיסטי המכונה לעיתים מקדם פי [ϕ coefficient], ששווה בתורו לכי בריבוע חלקי מספר הפריטים במדגם.

סיכום מטריצת הטעות ומדדי ההערכה

להלן איור המסכם את מטריצת הטעות וממדי ההערכה השונים, היסודיים והנגזרים, של מסווג דו-ערכי.

עקומת ROC

ערך מורחב – עקומת ROC

עקומת ROC נותנת ייצוג גרפי לתמורה ההדדית שיש בין הקטנת מספר השליליים הכוזבים לבין הקטנת מספר החיוביים הכוזבים: אם, למשל, המסווג הופך ערך בהירות של תמונה לסיווג בין שחור ולבן, ניתן לבחור קריטריון יותר מצומצם (שיסווג מעט מאד פריטים כשחורים) או יותר מרחיב (שיסווג הרבה פריטים כשחורים). הבחירה הראשונה תצמצם את הזיהויים השגויים של פריטים כחיוביים, אבל בתמורה נקבל הרבה שליליים כוזבים; האפשרות השנייה תמצמצם זיהויים שגויים של פריטים כשליליים, אבל בתמורה נקבל הרבה חיוביים כוזבים.

האפשרויות השונות לבחירת הקריטריון מוצגות על פי שני פרמטרים מייצגים: שיעור החיוביים האמיתיים (רגישות) ושיעור החיוביים הכוזבים (שהוא גם 1 פחות הסגוליות). בדרך כלל העקומה משורטטת בין הפינה השמאלית התחתונה ( $\left(0,0\right)$ , כל הפריטים מסווגים כשליליים), לבין הפינה הימנית העליונה ( $\left(1,1\right)$ , כל הפריטים מסווגים כחיוביים). צורתה הכללית של העקומה תלוי במידת הקושי של הסיווג: ככל שהוא יותר קל, היא תתקרב יותר לפינה השמאלית העליונה ( $\left(0,1\right)$ , "המסווג המושלם").

באופן כללי יותר, ניתן לייצג כל מסווג במרחב ROC, גם אם לא קיים פרמטר שניתן לשנות במסווג (ראו איור). מסווג הנמצא על האלכסון (הקו האדום) שקול לניחוש באקראי. למסווגים שמסומנים מעל האלכסון יש כח ניבוי חיובי. למסווגים שנמצאים מתחת לאלכסון יש אמנם כח ניבוי, אבל הוא הפוך: הם מסווגים באופן עקבי חיוביים רבים כשליליים ולהפך. ניתן להפוך מסווג כזה למסווג יעיל בעזרת החלפה בין הקטגוריות (בין חיובי לשלילי).

באופן טבעי, נובע שהמרחק בין המיקום של מסווג על הגרף לבין הנקודה $\left(0,1\right)$ גם הוא מדד לטיב הסיווג. במילים אחרות, מסווג טוב יצמצם את המרחק ${\sqrt {(TPR)^{2}+(FPR)^{2}}}$ . כמו כן, אם המחיר של כל אחד מסוגי הטעויות שונה, ניתן להוסיף משקלים לחשיבות היחסית של כל אחד הגורמים, והמרחק שיש לצמצם יהיה מהצורה ${\sqrt {w^{2}(TPR)^{2}+(1-w)^{2}(FPR)^{2}}}$ .

יחס הנראות החיובי של מסווג הוא מדד נוסף שניתן לזהות בעקומת ROC: הוא השיפוע של העקומה בכל נקודה.

בתחומים שונים

בדיקת השערות

ערך מורחב – בדיקת השערות

בדיקת השערות הוא הליך המשתמש בנתוני מדגם כדי להחליט אם לדחות או להישאר באמונתנו לגבי השערה נתונה. הבדיקה מכריעה בין שתי השערות לגבי ההתפלגות ממנה נלקח המדגם: השערת האפס (‎H₀) וההשערה האלטרנטיבית (‎H₁). את ההשערה האלטרנטיבית מנסים לאשש על ידי דחיית השערת האפס. בהקשר זה, שגיאה מסוג I היא דחיה של השערת האפס בשוגג, ושגיאה מסוג II היא אי-דחייה של השערת האפס ואישוש ההשערה הנגדית ‎H₁.

ההסתברות לשגיאה מסוג I מכונה רמת מובהקות המבחן, ומסומנת באות היוונית α; היא שקולה לשיעור החיוביים הכוזבים. ההסתברות למאורע המשלים (קבלה מוצדקת של ‎H₁) מכונה רמת הסמך עבור רווח בר סמך שנבנה ברמה זו.
ההסתברות לשגיאה מסוג II מסומנת באות היוונית β; היא שקולה לשיעור השליליים הכוזבים. ההסתברות למאורע המשלים (דחייה מוצדקת של ‎H₁) נקראת גם העוצמה הסטטיסטית של המבחן.

תורת גילוי האותות

ערך מורחב – תורת גילוי האותות

תורת גילוי האותות היא תחום שעוסק בקבלת החלטות בתנאי אי-ודאות, על ידי בני אדם ועל ידי מכונות.

במודל זה, מטריצת הטעות מבוטאת במונחים שונים מעט:

		גירוי או אות
		קיים	לא קיים
תגובה	זיהוי	פגיעה (hit)	אזעקת שווא (false alarm)
תגובה	התעלמות	החטאה (miss)	דחייה נכונה (correct rejection)

המוקד בתורה זו הוא ההבחנה בין שני סוגי גורמים לשגיאות העומדים בפני המסווג: יכולת ההבחנה בין אות לרעש (המבוטא על ידי מדד $d^{\prime }$ ), ומיקום הגבול בין תחומי ההחלטה (נקרא גם "קריטריון", ומסומן באות $\beta$ ).

ראו גם

לקריאה נוספת

R. Kohavi and F. Provost, Glossary of Terms. Machine Learning, volume 30, issue 2-3, February/March 1998.

Powers, D.M.W. (2007). Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness and Correlation. Technical Report SIE-07-001. School of Informatics and Engineering, Flinders University Adelaide, South Australia.

הערות שוליים

↑ יחס הנראות השלילי מבצע פעולה דומה עבור תוצאת בדיקה שלילית

הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0

שגיאות פרמטריות בתבנית:מיון ויקיפדיה
שימוש בפרמטרים מיושנים [ דרגה ] מדדי הערכה למסווג דו-ערכי22381270

[1] יחס הנראות השלילי מבצע פעולה דומה עבור תוצאת בדיקה שלילית

[1]

מדדי הערכה למסווג דו-ערכי

תוכן עניינים