חריג חשוד טעות
בסטטיסטיקה, חריג חשוד טעות (באנגלית: Outlier) הוא ערך של מדידה השונה באופן קיצוני מהרוב הגדול של הערכים וחשוד כערך שהתקבל עקב שגיאת מדידה או שגיאה בהבנת התופעה הנמדדת.
דוגמאות
דוגמה לערך חריג שלא ברור אם הוא שגוי: לפי הערכות תוחלת החיים של ה-CIA לקראת שנת 2010[1] למדינות וישויות מדיניות (ישויות כמו "העולם" "האיחוד האירופי" ו"רצועת עזה"), תוחלת החיים המולדת במונקו היא 89.78 שנים. דהיינו ה-CIA מעריך שמי שייוולד במדינה זו ובשנה זו ימות בממוצע, חודשיים וחצי לפני שיגיע לגיל תשעים. הערכה זו נראית שגויה משום ש:
- מחיי היום יום אנו רגילים לחשוב על מוות בגיל תשעים כתופעה חריגה ולא ממוצעת
- ערך זה גבוה באופן לא שגרתי מהערך הבא אחריו. הערך הבא בטבלה נמוך מערך זה בחמש שנים בניגוד להבדלים המקובלים בין ערכים עוקבים בטבלה זו שהם כמספר חודשים.
מאידך, הערכה זו נראית נכונה משום ש:
- מרבית הערכים הגבוהים בטבלה הם ממדינות מערב אירופאיות כמו מונקו
- שלושת הערכים הבאים אחרי ערך זה הם ממדינות קטנות מאד ועשירות מאד כמו מונקו
- הערך הזה הוא במרחק של פחות משתי סטיות תקן מממוצע הערכים בטבלה. דהיינו, אם יש התפלגות נורמלית לתוחלת חיים בין מדינות, אזי אחד מכל עשרים ערכים אמור להיות קיצוני יותר מערך זה.
דוגמה לערך חריג שברור שהוא שגוי: דיווח על תוצאה של 1000% במבחן בגרות. דיווח כזה חייב להיות שגוי משום שהציון המקסימלי במבחני הבגרות הוא 100%. ניתוח תוצאות מבחן הבגרות של שלושים נדגמים, שאחד מהם דיווח על ציון 1000%, עשוי להיות מעוות מאוד. אם ממוצע הציונים של שאר 29 התלמידים הוא 70%, הרי שהממוצע של כל השלושים יחדיו הוא 30/(70%*29 +1000%)= 101%.
כאשר נתקלים בערך חריג חשוד שגיאה בעת מחקר, יש לדווח עליו ולנמק את המשך ניתוח המידע בלעדיו. הנימוק חייב לכלול הן את הסיבה לחשד שהנתון לא יכול להיות אמיתי והן את תוצאת המדד לעיוות תוצאות המחקר על ידו. מדד כזה מבוסס על חישוב ממוצע התוצאות עם ובלי הקיצון השקרי.
יש לזכור שלא כל תוצאה חריגה היא שגויה. אם 29 איש מדווחים שיש להם בארנק 70 שקלים בממוצע ואדם נוסף מדווח שיש לו 1000 שקלים בארנק, אזי הדיווח שלו אינו בהכרח שקרי. במקרה כזה, טיפול בתוצאות בלא עיוותן יכול לכלול מעבר משימוש בממוצע לשימוש בחציון או חלוקת טווח התוצאות לתת-טווחים ומציאת שכיחותם של תת-טווחים אלה. לדוגמה: החציון עשוי להיות 65 שקלים ושכיחות תת-הטווחים עשויה להיות 20 איש עם פחות מ-66 שקלים, שמונה עם 66 עד 96 שקלים ו-3 עם 97 שקלים ומעלה.