וינסוריזציה
וינסוריזציה (Winsorization) היא שינוי של סטטיסטי על ידי הגבלת הערכים הקיצוניים שיכולים להתקבל במדגם, על מנת להקטין את ההשפעה של התצפיות החריגות.
הטכניקה נקראת על שם צ'ארלס פ. וינסור (1951-1895).
הגדרה
וינסוריזציה מתבצעת בשני שלבים - בשלב הראשון מתבצעת החלטה על הערכים המקסימלי והמינימלי אותם אנו מוכנים לקבל, ולאחר מכן החלפת הערכים הקיצוניים מערכים אלו באותם ערכי מקסימום ומינימום.
לדוגמה, ב-90% וינסוריזציה מחליטים שכל תצפית שערכה גבוה משל התצפית באחוזון ה-95, נשנה את ערכה כך שתהיה שווה לערך האחוזון ה-95, וכל תצפית שערכה נמוך משל התצפית באחוזון ה-5, נשנה את ערכה כך שתהיה שווה לערך האחוזון ה-5.
יתרון השיטה
המטרה העיקרית של השיטה היא ליצור סטטיסטי יותר חסין (robust).
שיטה נוספת ודומה שמאפשרת ליצור סטטיסטים חסינים יותר היא קטימה. ההבדל בין השיטות הוא שבווינסוריזציה לא משמיטים ערכים אלא רק משנים את ערכם כך שהם לא יהיו גדולים או קטנים מערכים מסוימים, בעוד בקטימה הערכים שערכם קיצוני מדי מושמטים לחלוטין.
דוגמה
נניח שהסטטיסטי בו אנו מעוניינים הוא הממוצע, ונניח שערכי המדגם הם:
האחוזון ה-5 הוא 5-, והאחוזון ה-95 הוא 101.
לכן, ערכים נמוכים מ-5- (כמו 40-) ישונו ל-5-, וערכים גבוהים מ-101 (כמו 1053) ישונו ל-101:
ניתן לראות שהווינסוריזציה שינתה את הערך של הסטטיסטי (הממוצע) מ-101.5 ל-55.65 - שינוי משמעותי מאוד. למעשה, לפני יישום השיטה הממוצע הושפע בצורה קיצונית מאד מתצפית בודדת, ולכן הוא לא ייצג בצורה טובה את המדגם.