Bootstrap (סטטיסטיקה)
Bootstrap או בוטסטראפ היא טכניקה בסטטיסטיקה ובלמידת מכונה אשר כוללת דגימה מחדש של נתונים. הטכניקה מבוססת על משיכת דגימות מהנתונים המקוריים שוב ושוב, תוך החזרתם למאגר הנתונים לאחר כל דגימה, כלומר, דגימה "עם החזרה". המשמעות היא שנקודת נתונים מסוימת יכולה להיכלל במערך הנתונים שנדגם מחדש מספר פעמים.[1]
בדרך כלל הנתונים אשר בידנו הם רק מדגם קטן מתוך האמת המלאה. ולכן בוטסטראפ מבוסס באופן רופף על חוק המספרים הגדולים האומר כי עם מספיק נתונים, התפלגות האמפירית תהיה הערכה טובה להתפלגות האמיתית.
באמצעות בוטסטראפ אפשר ליצור התפלגות של הערכות, במקום הערכה בודדת אחת. ההתפלגות הזו מספקת מידע על מידת הוודאות או חוסר הוודאות של ההערכות. במקום להסתמך על מדגם יחיד וזה מאפשר להעריך את התכונות של מדגם גדול יותר ולהפיק מסקנות אמינות יותר על האוכלוסייה הכללית.[1]
זהו כלי עזר בתחומים של סטטיסטיקה ולמידת מכונה, בהם מתמודדים עם נתונים מוגבלים ומנסים להפיק מהם תובנות מדויקות ככל האפשר. הוא מאפשר לחשב רווחי ביטחון להערכות, לבדוק מודלים סטטיסטיים ולבצע אנליזות רגישות בצורה גמישה ובלתי תלויה בהנחות מסוימות לגבי התפלגות הנתונים.
מתודולוגיה
המתודולוגיה כוללת מספר שלבים פשוטים אך חשובים להפקת הערכות מדויקות ומידע על אי-ודאות מהמדגם הנתון. הנה תיאור מפורט של התהליך הבסיסי:
- דגימה מחדש עם החזרה (Resampling with Replacement):
- שלב זה כולל יצירת מדגם מתוך המדגם המקורי על ידי דגימה מחדש עם החזרה. בכל דגימה, אנו בוחרים באופן אקראי נקודת נתונים מתוך המדגם המקורי ומחזירים אותה חזרה למדגם. תהליך זה חוזר על עצמו עד שיש לנו מדגם חדש בגודל זהה למדגם המקורי.
- לדוגמה, אם המדגם המקורי כולל נקודות נתונים, אזי כל מדגם יכלול גם הוא נקודות נתונים, כאשר חלק מהנקודות עשויות להופיע יותר מפעם אחת ואחרות עשויות לא להופיע כלל.
- חזרה על הדגימה מספר פעמים (Repeated Resampling):
- על מנת לקבל הערכות מדויקות ואמינות, יש לחזור על תהליך הדגימה מחדש מספר רב של פעמים. כל חזרה כזו יוצרת מדגם בוטסטראפ חדש.
- לדוגמה, אם אנו מחליטים לבצע 1,000 חזרות, יהיו לנו 1,000 מדגמים שונים.
- חישוב מדד העניין על כל מדגם (Estimation on Each Bootstrap Sample):
- עבור כל מדגם בוטסטראפ, אנו מחשבים את המדד הסטטיסטי בו אנו מעוניינים, כגון ממוצע, חציון, סטיית תקן או כל מדד אחר.
- שלב זה יוצר התפלגות של המדד הסטטיסטי על פני כל המדגמים שנוצרו.
- הפקת הערכות ורווחי ביטחון (Inference from the Bootstrap Distribution):
- על סמך ההתפלגות של המדד הסטטיסטי מכל המדגמים, ניתן להפיק הערכות שונות. למשל, ניתן לחשב את הממוצע והחציון של המדדים הסטטיסטיים על פני כל המדגמים.
- כמו כן, ניתן להעריך רווחי ביטחון על ידי חישוב אחוזונים מההתפלגות. לדוגמה, רווח הביטחון של 95% ניתן על ידי חישוב האחוזונים ה-2.5 וה-97.5 של ההתפלגות.
דוגמה מתמטית: נניח שיש לנו מדגם מקורי הכולל 5 נקודות נתונים: . תהליך ה-Bootstrap כולל את הצעדים הבאים:
- יצירת מדגם Bootstrap על ידי דגימה עם החזרה, לדוגמה: .
- חזרה על הדגימה מחדש 1,000 פעמים ליצירת 1,000 מדגמים שונים.
- חישוב ממוצע עבור כל אחד מ-1,000 המדגמים.
- הפקת התפלגות הממוצעים וניתוח ההתפלגות לצורך הפקת רווחי ביטחון והערכות נוספות.
היסטוריה
הטכניקה של בוטסטראפ פותחה בשנות ה-70 על ידי הסטטיסטיקאי ברדלי אפרון.[2] בשנת 1979 אפרון פרסם מאמר פורץ דרך שהציג את השיטה והראה כיצד ניתן להשתמש בה כדי להעריך את האי-ודאות של מדגמים סטטיסטיים באופן יעיל.
לפני הפיתוח של בוטסטראפ סטטיסטיקאים השתמשו בשיטות כמו Jackknife resampling (אנ') להערכת טעויות במדגמים. אף על פי שהשיטה של Jackknife הייתה שימושית, היא הייתה מוגבלת במצבים מסוימים ולא יכלה לספק הערכות אמינות בכל המצבים.
ההצגה של בוטסטראפ שינתה את הדרך שבה סטטיסטיקאים ומדעני נתונים ניגשו לבעיות של דגימה ואמידה של אי-ודאות. בזכות הפשטות והגמישות של השיטה, בוטסטראפ זכתה לפופולריות רבה והפכה לכלי מרכזי בארגז הכלים של סטטיסטיקאים ומדעני נתונים.[2]
מאז פיתוחה, השיטה של בוטסטראפ הותאמה ושופרה במגוון דרכים. כיום קיימות וריאציות רבות של השיטה, כולל בוטסטראפ פרמטרי ולא פרמטרי, ובוטסטראפ לשיפור ביצועים של מודלים מורכבים. התקדמות הטכנולוגיה והעלייה בכוח המחשוב הזמין אפשרו את היישום הנרחב של השיטה על מערכי נתונים גדולים ומורכבים, מה שהוביל לשיפור משמעותי ביכולת לבצע אנליזות סטטיסטיות מדויקות ואמינות.
יתרונות
- פשטות וגמישות: שיטת הבוטסטראפ היא פשוטה להבנה וליישום, ואינה דורשת הנחות חזקות על התפלגות הנתונים. זה הופך אותה לגמישה במיוחד ומתאימה לשימוש במגוון רחב של בעיות סטטיסטיות.
- הערכת אי-ודאות: הבוטסטראפ מאפשר להעריך את אי-הוודאות במדדים סטטיסטיים בצורה מדויקת יותר מאשר שיטות מסורתיות אחרות, כגון Jackknife. זה מאפשר לחשב רווחי ביטחון בצורה אמינה יותר.
- התאמה למודלים מורכבים: בניגוד לשיטות אחרות, הבוטסטראפ מתאים היטב להערכת טעויות במודלים סטטיסטיים מורכבים ובמצבים בהם אין פתרונות אנליטיים פשוטים.
- שימוש חוזר בנתונים: השיטה עושה שימוש חוזר בנתונים הקיימים, דבר שחוסך במשאבים ונמנע מהצורך באיסוף נתונים נוספים.
חסרונות
- כוח מחשוב גבוה: השימוש בבוטסטראפ כרוך בדגימה חוזרת ונשנית של נתונים, דבר שמצריך כוח מחשוב רב במיוחד כאשר מדובר במערכי נתונים גדולים או במודלים מורכבים.
- הנחות על המדגם המקורי: השיטה מניחה שהמדגם המקורי הוא ייצוג אמין של האוכלוסייה הכללית. אם המדגם המקורי אינו מייצג כהלכה, ההערכות שמתקבלות עשויות להיות מוטות.
- רגישות לערכי קיצון: כמו שיטות דגימה אחרות, גם הבוטסטראפ יכול להיות רגיש לערכי קיצון (outliers) במדגם המקורי, מה שעלול להשפיע על תוצאות ההערכה.
הערות שוליים
- ^ 1.0 1.1 Bootstrapping – Introduction to Machine Learning in Python, carpentries-incubator.github.io
- ^ 2.0 2.1 Efron’s bootstrap
Bootstrap (סטטיסטיקה)39186166Q301990