מובהקות סטטיסטית
בסטטיסטיקה, מובהקות סטטיסטית (או רמת מובהקות) היא הסיכוי שבעת ביצוע מבחן סטטיסטי לבדיקת השערות נדחה את ההשערה על אף שהיא נכונה. "רמת סמך" היא המשלים של רמת המובהקות (למשל, אם רמת המובהקות היא 5% אז רמת הסמך היא 95%).
בבדיקת השערות עומדת לבחינה השערה, הנקראת 'השערת האפס'. לצורך החלטה מבצעים ניסוי, ומשלבים את התוצאות במבחן שנבחר מראש. תוצאת המבחן היא אחת משתי מסקנות אפשריות: לדחות את ההשערה, או שלא לדחות אותה.
המבחן מורה לדחות את השערת האפס, אם תוצאות הניסוי אינן סבירות כאשר מניחים שההשערה נכונה. מכיוון שהניסוי כולל דגימה של משתנים מקריים, גם כאשר השערת האפס נכונה, בהחלט ייתכן שתתקבל תוצאה שלאורה השערת האפס תיראה בלתי סבירה (ותחייב את דחיית השערת האפס). לטעות כזו שבה דוחים את ההשערה שלא בצדק, קוראים שגיאה מסוג I ("דחייה שגויה"). להסתברות שטעות כזו תתרחש קוראים רמת המובהקות של המבחן.
דרך אחרת לחשוב על כך היא זו: נניח שערכנו מבחן, שמטרתו לאשש או להפריך את ההשערה. אזי, גם אם ההשערה נכונה, עדיין יש סיכוי כלשהו שהמבחן יגיד לי שהיא שגויה. סיכוי זה נקרא מובהקות סטטיסטית.
דוגמה
נאמר שברצוננו לבדוק האם מטבע מסוים הוא 'הוגן', כלומר נופל על שני צדדיו בסיכויים שווים. השערת האפס קובעת שהמטבע הוא אכן כזה. כאשר מטילים מטבע הוגן 200 פעם, הסיכוי לכך שאחד הצדדים יופיע 115 פעמים או יותר הוא 4%. אנו עורכים ניסוי שבו מטילים את המטבע 200 פעם. ממטבע הוגן מצפים שמספר הנפילות על כל צד יהיה קרוב ל-100. אנו מחליטים לדחות את השערת האפס (ולהכריז על המטבע כלא-הוגן), אם אחד הצדדים יופיע 115 פעמים או יותר. רמת המובהקות של ניסוי זה היא 4%. בניסוח אחר, לו היינו מפעילים את המבחן שלנו כדי לבחון מטבעות שונים, אפשר לצפות שארבעה מבין 100 מטבעות הוגנים יפסלו בטעות. יכולנו לקבוע רף גבוה יותר, למשל 125 נפילות על אותו צד, ולקבל רמת מובהקות טובה פי מאה, כ-0.05%.
מצד שני אם המטבע פגום והסיכוי שייפול על אחד הצדדים הוא 65%, למבחן הראשון סיכוי של 1% בלבד להחמיץ את התקלה ולדווח שהמטבע תקין, בעוד שלמבחן השני סיכוי של 20% לשגיאה כזו. זוהי שגיאה מסוג II ("קבלה שגויה") והיא קשורה לעוצמת המבחנים.
אפשר לחשוב על זאת כך: אם מעלים את סף הסבלנות לסטייה מהמצב הסביר (במקרה שלנו: סטייה מהתפלגות 100–100 ב-200 הטלות) הסיכוי לפסול מטבע הוגן ("דחייה שגויה") קטן, אך הסיכוי לאשר מטבע לא הוגן ("קבלה שגויה") גדל.
ערכים מקובלים
כאשר עורכים ניסויים מדעיים, ערכים מקובלים לרמת מובהקות הם 5% או 1%. ערכים אלו הם שרירותיים אך נוחים לעבודה ועל כן השתרשו. לכאורה נראה שאחת מבין 20 הכרזות על דחיית השערת האפס, מקורה בחוסר מזל סטטיסטי; אלא שלעיתים קרובות מתברר, בדיעבד, שדין השערת האפס היה להידחות גם במבחן בעל מסננת הדוקה יותר, ולכן שיעור השגיאות נמוך בהרבה.
יודגש שאת רמת המובהקות של המבחן אפשר לקבוע מראש, לפני ביצוע הניסוי, ובהתאם לזאת לבחור במבחן המתאים. בפועל, הופכים את סדר הדברים. בשלב ראשון קובעים משפחה של מבחנים. במקביל קובעים את רמת המובהקות הרצויה, תוך מתן משקל לגודל האפקט שאותו מבקשים לזהות, לחומרה של שגיאה מסוג I לעומת שגיאה מסוג II, ולעלויות הכרוכות בהגדלת המדגם. בהמשך בוחרים מתוך המשפחה את המבחן אשר לו רמת המובהקות המתאימה, ואז אפשר לגשת לביצוע הניסוי.
ראו גם
קישורים חיצוניים
- האם כל תוצאה מובהקת היא משמעותית (ולהפך)? - ד"ר יוסי לוי, נסיכת המדעים