סטיית תקן
סטיית התקן היא מדד סטטיסטי לתיאור הפיזור של נתונים מספריים סביב הממוצע שלהם, התלוי במרחק של הנתונים מן הממוצע שלהם. יתרונה של סטיית התקן על מדדי פיזור אחרים הוא בכך שהיא מופיעה באופן טבעי בניתוח המתמטי של התפלגויות. מושג זה נטבע בידי קרל פירסון בשנת 1894.
סטיית התקן נמדדת באותן ביחידות כמו הנתונים עצמם. היא שווה לשורש הריבועי של השונות, ולכן היא חיובית, ושווה לאפס רק כאשר כל הנתונים שווים זה לזה. מקובל לסמן את סטיית התקן באות היוונית σ.
יש להבחין בין סטיית התקן המחושבת לכל קבוצת הנתונים (האוכלוסייה) לבין סטיית התקן המדגמית המחושבת על מדגם (תת-קבוצה) מקבוצת הנתונים, ומשמשת רק לאמידה של סטיית התקן של האוכלוסייה.
סטיית תקן של הקבוצה (אוכלוסייה)
סטיית התקן של הנתונים היא , כאשר הממוצע.
דוגמה מספרית
נחשב את סטיית התקן של הקבוצה {2, 5, 8, 13}.
ממוצע הקבוצה הוא: .
נציב זאת בנוסחה לעיל ונקבל:
חישוב סטיית התקן לפי הנוסחאות בסעיף זה שימושי במקרים בהם ניתן לאסוף נתונים מכל הקבוצה (האוכלוסייה) אותה מעוניינים לחקור.
לדוגמה: מורה יכולה לאסוף נתונים של כל ציוני התלמידים בכיתתה המהווים את כלל האוכלוסייה לעניינה.
במקרים רבים לא ניתן מבחינה מעשית לאסוף את נתוני כלל האוכלוסייה ולכן מסתפקים באיסוף נתונים מחלק קטן ממנה בלבד. במקרה שכזה יש לחשב את סטיית התקן המדגמית (ראו להלן).
דוגמה נוספת להמחשה
נניח כי במועד א' ניגשו 4 תלמידים למבחן, והציונים שלהם הם {65, 75, 85, 95}.
הממוצע הכיתתי הוא: .
נציב זאת בנוסחה לעיל ונקבל את סטיית התקן:
כעת, נניח כי במועד ב' ניגשו 5 תלמידים למבחן, והציונים שלהם הם {76, 79, 80, 81, 84}.
הממוצע הכיתתי במועד ב' זהה לממוצע הכיתתי שבמועד א', משום ש: .
אולם, סטיית התקן הפעם נמוכה הרבה יותר, משום ש:
סטיית תקן של מדגם (מדגמית)
כאשר הנתונים שלנו מהווים מדגם (תת-קבוצה) מכלל הקבוצה (האוכלוסייה) הנוסחה לחישוב סטיית התקן של המדגם נתונה על ידי:
השוני הוא ש־ הפך ל־ .
- ממוצע המדגם
- איברי המדגם
- מספר האיברים במדגם (גודל המדגם)
נוסחאות שימושיות לחישוב סטיית התקן המדגמית
תכונות סטיית התקן
- סטיית התקן לעולם אינה שלילית
- השפעת העתקה לינארית על משתני הקבוצה המקורית. נסמן: קבועים, ו־ ערכי הקבוצה המקורית. תהי ההעתקה . השפעתה על סטיית התקן היא:
- כלומר, הכפלה של כל אחד ממשתני הקבוצה המקורית בקבוע (a) והוספת קבוע (b) משפיעה על סטיית התקן בהגדלתה פי a, התוספת הקבועה b לא משפיעה. תוצאה זו מתיישבת עם העובדה שסטיית התקן מודדת פיזור ולא מיקום, לכן הוספת קבוע ששקולה להזזה לא משפיעה ואילו הכפלה בקבוע (גדול מ־1) מגדילה את הפיזור של קבוצת הנתונים המקורית.
- סטיית התקן מושפעת מאד מערכים קיצוניים של הקבוצה (אוכלוסייה).
- סטיית התקן ניתנת לחישוב רק כאשר יש משמעות למרחק בין הערכים, כלומר סולם המדידה הוא רווחי (או מנתי).
דוגמאות לשימושים
הערך העיקרי בהבנת סטיית תקן של אוסף נתונים הוא בהערכת השוני של הערכים בהשוואה לממוצע.
- מזג אוויר
כדוגמה פשוטה, נסתכל בממוצע היומי של הטמפרטורה המקסימלית בשתי ערים- אחת במישור החוף והשנייה בפנים הארץ. יעזור להבין שטווח הטמפרטורות המקסימליות בערי חוף קטן מאשר בערים בפנים הארץ. לכן, בעוד שלשתי הערים האלו יש ממוצע טמפרטורות מקסימלי דומה, סטיית התקן של הטמפרטורה היומית המקסימלית עבור ערי חוף, תהיה קטנה מאשר של ערים בפנים הארץ. ביום מסוים הטמפרטורה המקסימלית הממשית בעלת סיכוי גבוה יותר להיות רחוקה יותר מהטמפרטורה המקסימלית הממוצעת עבור עיר בפנים הארץ מאשר בעיר חוף.
בפיזיקת חלקיקים משתמשים בתקן של "5 סיגמא" עבור הכרזה על תגליות. ב־5 סיגמא ישנו רק סיכוי של אחד לשני מיליון (בערך) שתנודה מקרית תניב את התוצאה. רמה זו של וודאות האיצה את ההכרזה שחלקיק שהנו בהתאמה עם בוזון היגס התגלה בשני ניסויים בלתי תלויים.
- כלכלה
בכלכלה, סטיית התקן משמשת לרוב כמדד הסיכון המקושר עם תנודות מחיר של נכס נתון (מניות, ניירות ערך, אג"ח וכדומה), או הסיכון של תיק השקעות (קבוצות השקעה, קרנות הון סיכון). סיכון הוא גורם משמעותי בבחירת דרך לניהול תיקי השקעות בצורה יעילה, בגלל שהוא קובע את שונות התשואות של נכס ו/או תיק השקעות ונותן למשקיעים בסיס מתמטי לקבלת החלטות השקעה (ראה ערך: התאוריה המודרנית של תיקי השקעות).
העיקרון הבסיסי של סיכון הוא שכשהוא גדל, התשואה אמורה לגדול גם כן, עליה שנקראת פרמיית סיכון (ראו פרמיה (שוק ההון)). במילים אחרות, משקיעים אמורים לצפות לתשואה גבוהה יותר כאשר ההשקעה נושאת בחובה סיכון גבוה יותר או חוסר וודאות. כאשר מעריכים השקעות, רצוי שהמשקיעים יעריכו גם את התשואה הצפויה וגם את חוסר הודאות בתשואות עתידיות. סטיית התקן נותנת הערכה מכומתת של חוסר הודאות לגבי תשואות עתידיות.
למשל, נניח שמשקיע צריך לבחור בין שתי מניות. למניה א' הייתה תשואה ממוצעת של 10% לאורך עשרים השנים האחרונות, עם סטיית תקן של 20%. לאורך אותה תקופה למניה ב' הייתה תשואה ממוצעת של 12%, אבל סטיית תקן גבוהה יותר של 30%. על בסיס סיכון־תשואה, המשקיע עלול להחליט שמניה א' היא בחירה בטוחה יותר, מכיוון שתוספת של שני אחוזי תשואה למניה ב' אינה שווה את הסיכון שנובע מעליה של 10% בסטיית התקן. למניה ב' סיכוי גבוה יותר לרדת בערכה (אך גם לעלות) לעיתים תכופות יותר מאשר מניה א' תחת אותם התנאים, וצפויה לספק תשואה גבוהה רק בשני אחוזים ממניה א'.
חישוב הממוצע של התשואה של אג"ח לאורך זמן תייצר את התשואה הצפויה של הנכס. עבור כל תקופה, חיסור התשואה הצפויה מהתשואה הממשית ייתן את ההפרש מהממוצע. העלאה בריבוע של ההפרש בכל תקופת זמן, ואז מיצוע יתן את השונות הכוללת של התשואה של הנכס. ככל שהשונות גבוהה יותר, כך הסיכון של האג"ח גבוה יותר. מציאת שורש השונות ייתן את סטיית התקן המבוקשת.
סטיית התקן בהתפלגות נורמלית – פעמון גאוס
כאשר התפלגות הערכים היא נורמלית בעלת סטיית תקן וממוצע :
- כ־68% מהם נמצאים במרחק שאינו עולה על סטיית תקן אחת מן הממוצע (כלומר 68% מהערכים נמצאים בין ל־).
- כ־95% מהם נמצאים במרחק שאינו עולה על שתי סטיות תקן מן הממוצע (כלומר בין ל־).
- כ־99.73% מהערכים נמצאים במרחק שאינו עולה על שלוש סטיות תקן מן הממוצע (בין ל־).
טבלה עבור התפלגות נורמלית.
σ | 68.26894921371% |
2σ | 95.44997361036% |
3σ | 99.73002039367% |
4σ | 99.99366575163% |
5σ | 99.99994266969% |
6σ | 99.99999980268% |
7σ | 99.99999999974% |
סטיית תקן של משתנה מקרי
סטיית התקן עבור משתנה מקרי X מוגדרת כשורש ריבועי של השונות. כלומר:
תוחלת המשתנה המקרי X, המומנט השני סביב 0.
נציין שלא לכל משתנה מקרי קיימת סטיית תקן. היא קיימת רק בתנאי שהתוחלת והמומנט השני קיימים וסופיים.
שגיאת ±
ברגע שיש שגיאת ± יש לכפול את השגיאה בכמות המדידות שנעשו.
ראו גם
קישורים חיצוניים