מודל (סטטיסטיקה)
בסטטיסטיקה, מודל הוא תיאור מתמטי של תהליך הסתברותי שממנו התקבל מדגם, המגלם בתוכו אוסף של הנחות לגבי התהליך. במקרים רבים, המודל הסטטיסטי מייצג את התהליך שייצר את הנתונים במידה ניכרת של הפשטה.
המודל הסטטיסטי מורכב ממשפחה של התפלגויות הסתברות התואמות להנחות המגולמות בו, מתוך הנחה שלפחות חלק מההתפלגויות דומות מספיק להתפלגות שממנה נדגמו הנתונים. התפלגויות ההסתברות הכרוכות במודלים סטטיסטיים הן מה שמבדיל בין מודלים סטטיסטיים לבין מודלים מתמטיים אחרים, שאינם סטטיסטיים.
המודל הסטטיסטי מוגדר בדרך כלל על ידי משוואות מתמטיות שמעורב בהם משתנה מקרי אחד או יותר ואולי גם משתנים שאינם מקריים. מתוך כך אומרים לפעמים כי המודל הסטטיסטי הוא "ייצוג פורמלי של תאוריה"[1]
מודל סטטיסטי עומד בבסיסה של כל בדיקת השערות וכל אמידה סטטיסטית. באופן כללי יותר, מודלים סטטיסטיים הם אחד מיסודותיה של ההסקה הסטטיסטית.
הגדרה
באופן פורמלי, מקובל להגדיר מודל כזוג הסדור , כאשר הוא מרחב כל התצפיות האפשריות (או: מרחב הנתונים), ו- הוא אוסף התפלגויות הסתברות על .[2] בהקשרים מסוימים, עשויים לוותר על הציון המפורש של , וקוראים מודל סטטיסטי לאוסף .
האינטואיציה מאחורי הגדרה זו היא כדלקמן: ההנחה היא שיש התפלגות הסתברות "אמתית" המשויכת לתהליך זה, אשר יוצרת את הנתונים המתקבלים בו. מסמנים ב- קבוצה (של התפלגויות) אשר מכילה התפלגות שהיא קירוב מספיק טוב של ההתפלגות האמתית. לא חייבת בהכרח להכיל את ההתפלגות האמתית, ובפועל היא מכילה אותה רק לעיתים נדירות. אכן, כפי שטענו ברנהם ואנדרסון, "מודל הוא הפשטה או קירוב של המציאות, ולכן איננו משקף את כלל המציאות"[3] – ומכאן מגיעה גם האמרה: "כל המודלים שגויים".
לקבוצה כמעט תמיד יש פרמטר סטטיסטי שמשמש לה כאינדקס: . הקבוצה מגדירה את הפרמטרים האפשריים של המודל. בדרך כלל, דורשים מהפרמטריזציה של שתהיה חד-חד-ערכית: כל זוג פרמטרים השונים זה מזה מהווים אינדקס להתפלגויות שונות. כלומר, בהכרח . במקרה כזה אומרים שהמודל ניתן לזיהוי.
דוגמה
נניח אוכלוסייה של תלמידי בית ספר, כך שגילם של הילדים באוכלוסייה מתפלג באופן אחיד. גובהו של כל ילד קשור באופן סטוכסטי לגילו: למשל, אם ילד הוא בן 7, זה משפיע על הסיכוי של הגובה שלו להיות מטר וחצי. ניתן להציג את מערכת היחסים הזו בצורת מודל רגרסיה ליניארית, למשל:
כאשר הוא גובהו של התלמיד ה-, הוא גילו, הוא החיתוך של קו הרגרסיה, הוא פרמטר שיש להכפיל בו את הגיל כדי לקבל תחזית לגובה, ו- הוא איבר שגיאה. המודל מניח שניתן לנבא את גובהו של תלמיד על ידי גילו, עד כדי שגיאה כלשהי.
מודל קביל חייב להיות עקבי עם כל הנתונים. לפיכך, קו ישר () לא יכול המשוואה עבור מודל הנתונים, כי הוא אינו מתאים בדיוק לכל הנתונים – התאמה תתקיים רק אם כל הנתונים נמצאים בדיוק על הקו. מסיבה זו, מכלילים במשוואת המודל איבר שגיאה , כדי שהמודל יהיה תואם לכל הנתונים.
כדי לבצע הסקה סטטיסטית, יש קודם כל להניח איזו משפחה של התפלגויות הסתברות עבור . למשל, ניתן (ולפעמים מקובל) להניח כי הם משתנים מקריים נורמליים שווי-התפלגות בלתי-תלויים (לשם הקיצור: ש"ה ב"ת), בעלי תוחלת 0. במקרה זה, למודל יש 3 פרמטרים: , , והשונות של ההתפלגות הנורמלית ().
ניתן להגדיר את המודל באופן רשמי בצורה כדלקמן: מרחב הנתונים של המודל, , הוא קבוצת כל הזוגות (גיל, גובה) האפשריים. כל ערך אפשרי של קובע התפלגות על ; נסמן את התפלגות זו ב-. אם היא קבוצת כל הערכים האפשריים של , אז . קל לבדוק שפרמטריזציה כזו היא ניתנת לזיהוי.
המודל נקבע על ידי: (א) קביעה של , (ב) קביעת כמה הנחות רלוונטיות עבור . בדוגמה לעיל, מניחים כי ניתן לקרב את הגובה כפונקציה ליניארית של הגיל וכי השגיאות של הקירוב מתפלגות נורמלית ללא תלות הדדית. הנחות אלו מספיקות כדי לקבוע את , כנדרש.
ממדי המודל
נניח מודל סטטיסטי ונסמן . נאמר כי המודל הוא פרמטרי אם הממד של סופי. באופן פורמלי, מסמנים , כאשר k הוא מספר חיובי ( מציין את שדה המספרים הממשיים; באופן עקרוני, ניתן להשתמש גם בקבוצות אחרות במקומו). כאן, k נקרא הממד של הדגם.
למשל, אם נניח כי הנתונים מגיעים מהתפלגות גאוסית חד ממדית, אז אנו מניחים כי
- .
בדוגמה זו, הממד k שווה ל-2.
כדוגמה נוספת, נניח כי הנתונים הם אוסף של נקודות (x, y), אנחנו מניחים שההתפלגות שלהם מתוארת על ידי קו ישר עם סטיות נורמליות שוות-התפלגות בלתי-תלויות (עם תוחלת אפס). במקרה כזה, הממד של המודל הסטטיסטי הוא 3: נקודת החיתוך של הקו, השיפוע של הקו, והשונות של הסטיות.
אם הממד של אינו סופי, אומרים שהמודל הוא לא-פרמטרי או א-פרמטרי. למשל, במודל שמניח שלנתונים יש צפיפות הסתברות רציפה על קטע , אז היא קבוצת כל הפונקציות הרציפות על הקטע (), שהיא בעלת ממד אינסופי.
סטטיסטי מספיק
- ערך מורחב – סטטיסטי מספיק
כל פונקציה של המדגם שאינה תלויה בפרמטר נקראת סטטיסטי. אומרים שסטטיסטי הוא מספיק, אם ההתפלגות המותנית של הנתונים בסטטיסטי היא קבועה ביחס לפרמטרים של המודל.
אינטואיטיבית, סטטיסטי הוא מספיק עבור מודל, אם הערך של הסטטיסטי מכיל את כל המידע לגבי ההתפלגות שממנה נלקח המדגם.
משפחות מודלים
מודלים מעריכיים
- ערך מורחב – משפחה מעריכית
מודלים רבים ניתן לכתוב בצורה
ובכלל זה, מודלים שמבוססים על הרבה התפלגויות "מפורסמות", כמו ההתפלגות הנורמלית והתפלגות פואסון.
מודל רגרסיה
מודל שמטרתו לזהות יחס בין קבוצת משתנים ("מסבירים") למשתנה אחר ("מוסבר") נקרא מודל רגרסיה. לרגרסיה צורות רבות, אבל הנפוצה והמפורסמת מביניהן היא רגרסיה ליניארית (ראו דוגמה לעיל), שמניחה שהמשתנה המוסבר הוא פונקציה ליניארית של המשתנים המסבירים.
מקורות
- Adèr, H.J. (2008), "Modelling", in Adèr, H.J.; Mellenbergh, G.J. (eds.), Advising on Research Methods: a consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, pp. 271–304
- Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (2nd ed.), Springer-Verlag, ISBN 0-387-95364-7
- McCullagh, P. (2002), "What is a statistical model?" (PDF), Annals of Statistics, 30: 1225–1310, doi:10.1214/aos/1035844977
לקריאה נוספת
- Davison A.C. (2008), Statistical Models, Cambridge University Press.
- Freedman D.A. (2009), Statistical Models, Cambridge University Press.
- Helland I.S. (2010), Steps Towards a Unified Basis for Scientific Models and Methods, World Scientific.
- Kroese D.P., Chan J.C.C. (2014), Statistical Modeling and Computation, Springer.
- Stapleton J.H. (2007), Models for Probability and Statistical Inference, Wiley-Interscience.
קישורים חיצוניים
הערות שוליים
- ^ קנת בולן (Kenneth A. Bollen), לפי ציטוט של הרמן אדר [Herman J. Adèr]).(Adèr 2008, p. 280)
- ^ McCullagh 2002.
- ^ Burnham & Anderson 2002, §1.2.5
23462220מודל (סטטיסטיקה)