סטטיסטיקה תיאורית
סטטיסטיקה תיאורית היא ענף בסטטיסטיקה, העוסק ביצירה והשוואה של מדדים לתיאור תמציתי וקל לתפישה של נתונים. מטרת הסטטיסטיקה התיאורית היא לסייע בארגון וסיכום הנתונים שנאספו מכלי מדידה או הערכה שונים[1].
טבלאות
טבלה היא תמליל או אוסף נתונים מספריים, המארגן בעל שטח של מסמך, בעזרת טורים ושורות, כאשר כל טור ושורה נושאים כותרת המגדירה את תוכנם. בטבלה מוצלבים הטורים והשורות ליצירת תאים בהם נרשמים הערכים השונים, נתון אחד בכל תא. נתונים בטבלה מכונים ערכי הטבלה. לכלל הטבלה ניתנת כותרת ראשית.
מטרת הטבלה היא סידור מידע באופן תמציתי וקל לתפישה. היא מגדירה במדויק קשרים בין הערכים השונים. טבלה רגילה מסוגלת לקשר מספר רב של הבחנות (דרכים על פיהן מבוצע המיון) זו לזו, ולתאר בכך את התייחסותן ההדדית.
דוגמה:
טבלת חלוקת מדינות העולם לפי תוחלת חיים בלידה, על פי הערכות ה CIA לקראת שנת 2010[2].
עשירון | תוחלת חיים מ- | תוחלת חיים עד | מדינות בולטות |
---|---|---|---|
העשירון העליון | 80 שנה | 90 | מדינות מערב אירופאיות, אוסטרליה, ניו זילנד, יפן, סינגפור וישראל |
השני | 78.5 | 80 | מדינות מערב אירופאיות, ממלכת ירדן, קוריאה הדרומית, בוסניה-הרצגובינה, פוארטו ריקו |
השלישי | 76.7 | 78.5 | מדינות ממזרח ומערב אירופה, ארצות הברית, מדינות דרום אמריקניות, טאיוואן וליבריה |
הרביעי | 75 | 76.7 | מדינות ערביות שונות, מדינות מזרח אירופאיות, דרום אמריקניות ודרום מזרח אסייתיות |
החמישי | 73.5 | 75 | מרבית מדינות ערב, סין, הונגריה ומדינות שונות מדרום אמריקה ודרום מזרח אסיה |
השישי | 71.4 | 73.5 | לטביה, ברזיל, מצרים, אירן, טורקיה ומקבץ מדינות עולם שלישי |
השביעי | 67.5 | 71.4 | מקבץ מדינות עולם שלישי, ביניהן הפיליפינים ועיראק |
השמיני | 62.5 | 67.5 | רוסיה, תימן ומדינות מדרום מזרח אסיה |
התשיעי | 54.5 | 62.5 | מדינות עולם שלישי שונות, רובן באפריקה שמדרום לסהרה |
האחרון | 38 | 54.5 | אפגניסטן ומדינות אפריקה שמדרום לסהרה או במדבר סהרה עצמו |
הצגה גרפית
הצגה גרפית היא דרך לתאר התפלגות של משתנה מקרי בצורה ויזואלית.
- דיאגרמת מקלות - על ציר ה-X ערכי המשתנים, ציר ה-Y הוא תדירויות הופעת משתנה בערך מסוים. על כל ערך אפשרי של המשתנה ניצב "מקל" בגובה פרופורציוני למספר הפעמים שערך זה מופיע במדגם.
- היסטוגרמה - על ציר ה-X קטגוריות של ערכי משתנים (למשל טווח ערכים). מעל כל קטגוריה ניצב מלבן בעל שטח פרופורציוני למספר הפעמים שערכי הקטגוריה מופיעים במדגם.
- דיאגרמת עוגה - תרשים בצורת מעגל המציג התפלגות: שטח המעגל צבוע בצבעים שונים, כפרוסות בעוגה, כאשר הזווית המוקדשת לכל צבע נמצאת בפרופורציה לתדירות הופעת ערכי הקטגוריות השונות.
מדדים
מדדי מיקום ומרכז
מדדי מיקום הם מדדים המאפשרים להעריך את מיקומו של פרט ביחס לשאר המדגם. מרבית מדדי המיקום הם מדדי מרכז. מטרתם של מדדי מרכז היא אפיון מרכז ההתפלגות. ההבדל ביניהם הוא במידת רגישותם לערכים קיצוניים.
- מדדים הקשורים לממוצע:
- ממוצע חשבוני (לרוב נקרא פשוט "ממוצע") - הערך שהיה מתקבל עבור כל פרט, אילו כלל ערכי הקבוצה היו מתחלקים שווה בשווה בין פרטיה. זהו מדד המיקום המקובל ביותר בסטטיסטיקה. דרך חישוב: סכום הערכים חלקי מספרם. מדד מרכז.
- ממוצע משוקלל - מדד מרכז. ממוצע משוקלל הוא ממוצע חשבוני שבו לערכים שונים ניתנת חשיבות ("משקל") שונה. ערכו של הממוצע המשוקלל הוא סכום המכפלות של כל ערך במשקל שלו, מחולק בסכום המשקלות. הממוצע החשבוני הפשוט הוא מקרה פרטי של הממוצע המשוקלל כאשר כל המשקלות שווים זה לזה.
- ציון תקן - ציון תקן הוא המרחק של הפריט מהממוצע החשבוני, ביחידות של סטיית התקן.
- ממוצע הנדסי - ממוצע הנדסי של ערכים חיוביים הוא מכפלת הערכים, בחזקת המספר ההופכי למספר הערכים. מדד מרכז.
- ממוצע הרמוני - מדד מרכז.
- ממוצע חשבוני (לרוב נקרא פשוט "ממוצע") - הערך שהיה מתקבל עבור כל פרט, אילו כלל ערכי הקבוצה היו מתחלקים שווה בשווה בין פרטיה. זהו מדד המיקום המקובל ביותר בסטטיסטיקה. דרך חישוב: סכום הערכים חלקי מספרם. מדד מרכז.
- אחוזון - האחוזון של פריט מסוים בסדרה מציין איזה אחוז מן הנתונים קטנים ממנו. בדומה לאחוזונים, ניתן לבטא את מיקומו של פריט בשברים אחרים, כגון חמישונים, עשירונים וכדומה. כך למשל, העשירון הרביעי כולל את האחוזונים מ-30 עד 40.
- חציון הוא הערך שנמצא באמצע קבוצת הנתונים לאחר סידורה. החציון שימושי למשל כאשר יש באוכלוסייה ערכים חריגים שערכם המספרי אינו בר-חשיבות.
- העשירון העליון.
- רבעון ראשון ורבעון שלישי, וביניהם מקובל לחשב את אמצע הטווח הבין-רבעוני.
- אחרים:
- אמצע הטווח - ממוצע חשבוני של המרחק בין הערך הנמוך ביותר לבין הערך הגבוה ביותר (מדד נדיר שימוש בשל השפעת תוצאות בעלות ערך חריג). מדד מרכז
- שכיח - הערך הנפוץ ביותר בקבוצה. הערך המופיע מספר הפעמים הגדול ביותר במדגם. מדד מרכז
מדדי פיזור
בניגוד למדדי מרכז, המאפיינים את המשותף לכל הערכים, מדדי פיזור מודדים את ההבדל בין הערכים שבמדגם.
- טווח - המדידה הפשוטה ביותר של הפיזור היא הטווח - המרחק בין הערך הגדול ביותר לבין הערך הקטן ביותר (R = Xmax - Xmin). מדידה זו מושפעת ביותר מערכים קיצוניים.
- טווח בין-רבעוני - המרחק בין הרבעון הראשון לבין הרבעון השלישי.
- שוֹנוּת - מדד המאפיין את השונות של הערכים, כלומר מידת ריחוקם מהערך הממוצע. מחושב כממוצע ריבועי הסטיות מהממוצע.
- סטיית תקן - המרחק של המדדים מן הממוצע, מדד המתבסס על השונות, ומשמש לאותו צורך. מחושב כשורש ריבועי של השונות. הצורך במדד זה נובע מהעובדה שבתהליך חישוב השונות יש העלאה בריבוע, ולכן הערך המתקבל אינו באותן יחידות של ערכי המדגם. סטיית התקן היא באותן יחידות.
מדדים הן לפיזור והן למיקום
- התפלגות - אפיון הערכים על פי מידת פיזורם במרחב. לדוגמה התפלגות אחידה, התפלגות נורמלית, התפלגות פואסונית.
מדדי קשר ותלות
מדדי קשר הם מדדים המאפשרים להעריך את טיב הקשר בין שני משתנים שונים - האם יש קשר בין שינוי באחד מהם לשינוי בשני. קיימים מספר מדדי קשר, בהתאם לסולם המדידה של המשתנים הנמדדים. במקרה של אי התאמה בין הסולמות של שני משתנים, יש להשתמש במדד המתאים לסולם הנמוך מבין השניים.
- מתאם קרמר - למשתנים שמיים.
- מתאם פי - דרך מקוצרת לחישוב מתאם קרמר.
- מדד למדה - למשתנים שמיים.
- מתאם ספירמן - למשתני סדר.
- מתאם פירסון - למשתני רווח ומנה.
- מדד אטא - למשתני מנה.
קישורים חיצוניים
- צ'ארלס קימן, הצגה חזותית של נתונים סטטיסטיים - כללים להכנת תרשימים ומפות, הלשכה המרכזית לסטטיסטיקה, 2003
- סטטיסטיקה תיאורית, קורס מקוון של המכללה האקדמית אשקלון, באתר קמפוס - המיזם הלאומי ללמידה דיגיטלית של המשרד לשוויון חברתי, אוגוסט 2018
הערות שוליים
- ^ מנוחה בירנבוים, חלופות בהערכת הישגים, רעננה: רמות, 1997, מסת"ב 965-274-227-9.
- ^ Country Comparison: Life Expectancy at Birth, באתר ספר העובדות העולמי (באנגלית)
30143859סטטיסטיקה תיאורית