בדיקת השערות

בסטטיסטיקה, בדיקת השערות הוא הליך המשתמש בנתוני מדגם כדי להחליט אם לדחות או לא לדחות השערה נתונה.

הבדיקה מכריעה בין שתי השערות לגבי ההתפלגות ממנה נלקח המדגם: השערת האפס (שנהוג לסמן ב- $H_{0}$ ), שהיא לרוב ההשערה השמרנית אותה מנסים לדחות, והשערה אלטרנטיבית ( $H_{1}$ ). לרוב, ההשערה האלטרנטיבית $H_{1}$ היא קיום התופעה אותה מנסים לאשש.

דוגמה

נניח שרוצים לבדוק את ההשערה שהזנת פרות בתחמיץ גורמת לתנובת חלב רבה יותר מאשר הזנתן בחציר. במקרה זה ננסח את שתי ההשערות הבאות:

$H_{0}$ : לפרות הניזונות מתחמיץ אין תנובת חלב גבוהה מזו של פרות הניזונות מחציר.
$H_{1}$ : לפרות הניזונות מתחמיץ יש תנובת חלב גבוהה מזו של פרות הניזונות מחציר.

כדי לטעון שהזנה בתחמיץ מגבירה את תנובת החלב, כלומר לדחות את השערת האפס ולקבל את ההשערה האלטרנטיבית, יש לאסוף נתונים לגבי התפלגות תנובת החלב תחת שני סוגי המזונות. למשל, איסוף של נתוני תנובת החלב משתי קבוצות (מדגמים) של פרות, במשך תקופת זמן מסוימת, כאשר כל אחת מהקבוצות ניזונה מסוג מזון אחר (תחמיץ או חציר). כל קבוצה מייצגת "אוכלוסייה", כלומר את כל הפרות שניתן לגדל באותם תנאים (ולא רק אלה שמשתתפות בניסוי). ניתן להשוות את ממוצעי תנובת החלב של הפרות בשתי הקבוצות, תוך התחשבות בשונות בכל קבוצה. זוהי בדיקת ההשערות בדבר תוחלת המתבססת על ההנחה שההתפלגויות של שתי האוכלוסיות המיוצגות בניסוי הן מסוג זהה (למשל, התפלגות נורמלית) והבדיקה נעשית רק לגבי תוחלות ההתפלגות, המיוצגות על ידי הממוצעים של שתי הקבוצות.

נניח שעל פי הנתונים, ממוצע תנובת החלב של הפרות בקבוצה שאכלה תחמיץ גבוה בליטר אחד מזה של הפרות שבקבוצה שאכלה חציר. נתון זה אינו מספיק בהכרח כדי לדחות את השערת האפס ולהוכיח את הטענה שתחמיץ מגביר את תנובת החלב בהשוואה לחציר, כי הבדלים מקריים בין שתי דגימות, אפילו אם הן מאותה אוכלוסייה, הם צפויים (למשל, ממוצעי תנובת החלב של שתי קבוצות של פרות שהוזנו בתחמיץ יהיו שונים במקצת). רק הבדל מובהק סטטיסטית מאפשר דחייה של השערת האפס.

בדיקת המובהקות הסטטיסטית נעשית בדרך דומה להוכחה בדרך השלילה: נניח שהשערת האפס נכונה, ונחשב מהי ההסתברות לקבל "במקרה" הבדל של 1 ליטר או יותר בין ממוצעי הקבוצות (שנדגמו מתוך אותה התפלגות אוכלוסייה).

אם תתקבל הסתברות נמוכה, למשל 0.01 (1%), נטען שהשערת האפס איננה סבירה דיה ולכן יש לדחות אותה. בכך נקבל את ההשערה האלטרנטיבית, שהזנה בתחמיץ אכן גורמת לתנובת חלב גבוהה יותר מהזנה בחציר. אך אם תתקבל הסתברות גבוהה יותר, למשל 0.3 (30%), לא נוכל לדחות את השערת האפס; ייתכן שהתוצאה היא מקרית ובמדגמים אחרים תתקבל תוצאה הפוכה.

סוגי שגיאות

הליך בדיקת ההשערות מספק שתי תוצאות אפשריות: דחיית השערת האפס או אי דחייתה. במציאות, ייתכן שהשערת האפס נכונה או איננה נכונה. לכן ייתכנו שני סוגים שונים של שגיאות:

שגיאה מסוג I: דחיית השערת האפס כאשר למעשה היא נכונה.
שגיאה מסוג II: אי דחיית השערת האפס כאשר למעשה היא איננה נכונה.

ההסתברות לכל שגיאה תלויה בפרמטרים של המבחן הסטטיסטי שבו משתמשים לצורך בדיקת ההשערות, ובדרך כלל משתמשים בהם כדי לשלוט בהסתברות לשגיאה מסוג I (α, הקרויה רמת המובהקות של המבחן). הערך הנבחר של α קובע את ההסתברות לשגיאה מסוג II‏ (β).

השגיאות הן בעלות אופי שונה במהותן ובעלות השלכות שונות. לרוב, ההשערה האלטרנטיבית היא תופעה שאותה החוקר מעוניין להוכיח, ובמקרה זה שגיאה מסוג I תגרום לו להסיק בטעות שגילה תגלית. שגיאה כזו עשויה לגרום לפרסום מאמר מדעי שגוי, ליציאתה לשוק של תרופה חסרת השפעה, וכיוצא באלה.

בשגיאה מסוג II החוקר מחמיץ את ההזדמנות לגלות תגלית אמיתית. במקרה כזה עדיין עומדת לרשותו האפשרות לחזור על הבדיקה בצורה מקיפה יותר, למשל עם יותר נתונים, אך הוא עלול לנטוש את כיוון המחקר. בדרך כלל במקרה של שגיאה מסוג II הניסוי איננו מתפרסם ברבים, כי המסקנה (השגויה) אינה "מעניינת" דיה.

ההסתברות למאורע המשלים ביחס לשגיאה מסוג I (שיביא לפרסום של תגליות אמיתיות בלבד) נקראת גם רמת הסמך של המבחן, ואילו ההסתברות למאורע המשלים ביחס לשגיאה מסוג II (שבו אף תגלית אמיתית אינה מוחמצת) נקראת עוצמת המבחן.

מבחנים נפוצים

מבחנים סטטיסטיים רבים עוסקים בבדיקת השערות אודות תכונות של ההתפלגות של משתנים מקריים. לדוגמה:

מבחן Z - בחינת השערות אודות התוחלת של משתנה אקראי נורמלי בעל שונות ידועה. למשל, אם נניח שגובה של בני אדם הוא משתנה אקראי נורמלי, ושהשונות שלו ידועה לנו, אז בדיקה האם ממוצע הגובה במדינה אחת שונה מזה של מדינה אחרת תתבצע בעזרת מבחן z.
מבחן t - בחינת השערות אודות התוחלת של משתנה אקראי נורמלי בעל שונות לא ידועה.
מבחן F - בחינת השערות התלויות במספר פרמטרים.
מבחן כי בריבוע - בחינת השערות התלויות ברמת מובהקות ומספר דרגות החופש.

בדיקת השערות מול אמידה בייסיאנית

טעות נפוצה היא לנסות לגזור מהתוצאות של בדיקת השערות את ההסתברות לכך שההשערה שנבדקה נכונה.

בבדיקת השערות קלאסית, נכונות ההשערה אינה משתנה אקראי שניתן לייחס לו הסתברות, אלא חלק (בלתי ידוע) של המציאות הדטרמיניסטית. לכן לא ניתן לייחס הסתברות כלשהי מראש לנכונות ההשערה הנבדקת (הסתברות אפריורית), ואי אפשר גם לחשב את ההסתברות שהיא נכונה לאחר התבוננות בנתונים (הסתברות אפוסטריורית). ההסתברות המחושבת היא ההסתברות של הנתונים בהינתן ההשערה (הקרויה נראות), ויש להגדיר (לפי הבחירה הרצויה בין שגיאות מסוג I ומסוג II) את אזור הקבלה, שהוא ההסתברות שמתחתיה יש לדחות את השערת האפס. לדוגמה, אם מטילים מטבע מאה פעמים ומספר הפעמים שהתקבל "עץ" רחוק מספיק מ-50 (לפי סף שיש לבחור), נחליט כי המטבע אינו "הוגן".

בשיטת ההסקה הבייסיאנית מייחסים לתופעה הסתברות אפריורית, המייצגת את רמת האמונה בנכונותה (למשל, לפי ידע קודם). לאחר איסוף הנתונים אפשר לחשב את ההסתברות חדשה לקיומה של התופעה. לדוגמה, נניח בידינו מטבע ואנו מייחסים מראש הסתברות של 99% לכך שהוא הוגן לחלוטין (השערת האפס) ו-1% לכך שהוא מוטה ביחס של 60:40 לטובת "עץ" (נניח שאין אפשרויות אחרות). אם בהטלת המטבע חמש פעמים התקבלו חמש תוצאות "עץ", ההסתברות המעודכנת להשערת האפס היא

$P (H_{0} | 5) = P (5 | H_{0}) \frac{P (H_{0})}{P (5)} = 0 . 5^{5} \frac{0.99}{0 . 5^{5} \cdot 0.99 + 0 . 6^{5} \cdot 0.01} \approx 97.5 %$