רגרסיה לוגיסטית

מתוך המכלול, האנציקלופדיה היהודית
קפיצה לניווט קפיצה לחיפוש

רגרסיה לוגיסטית היא מודל סטטיסטי המתאר קשר אפשרי בין משתנה איכותי/קטגורי, המכונה "המשתנה המוסבר", ובין משתנים אחרים המכונים "משתנים מסבירים". המשתנים המסבירים יכולים להיות איכותיים או כמותיים. המודל מאפשר לאמוד את מידת ההשפעה של שינוי בערכו כל אחד מהמשתנים המסבירים על ערכו של המשתנה המוסבר. במילים אחרות, המודל מאפשר לאמוד מתאמים בין המשתנים המסבירים למשתנה המוסבר. המודל לבדו אינו מספיק כדי לקבוע קשר סיבתי בין המשתנים המסבירים והמשתנה המוסבר.

מודל הרגרסיה הלוגיסטית הוא מקרה פרטי של המודל הליניארי המוכלל.

היסטוריה

מקורותיה של ההתפלגות הלוגיסטית, המהווה את הבסיס למודל הרגרסיה הלוגיסטית הם במאה ה-19. מקורה במשוואה דיפרנציאלית שתיארה מודל לגידול באוכלוסייה, וגם מודלים של ריאקציות כימיות. הסטטיסטיקאי הבלגי אדולף קטלה הבחין כי הפתרון שנמצא למשוואה הנ"ל מוביל לערכים בלתי אפשריים והציע משוואה מתוקנת שכללה פונקציית התפלגות. פונקציית ההתפלגות שהתגלתה בפתרון המשוואה המתוקנת נקראה בשם ההתפלגות הלוגיסטית.

הרעיון הבסיסי של מודל הרגרסיה הלוגיסטית היא כי בהינתן משתנה איכותי (הנמדד בסולם מדידה שמי) המקבל שני ערכים, הערך של משתנה זה נקבע על ידי משתנה נסתר שהתפלגותו היא התפלגות לוגיסטית. מקורו של רעיון זה הוא בניסיונות של קרל פירסון לפתח מקדם מתאם למשתנים איכותיים, כאשר הנחתו הייתה כי ערכם של המשתנים האיכותיים נקבע על ידי משתנה נסתר בעל התפלגות נורמלית. סיר דויד קוקס(אנ') אימץ את הרעיון הזה ופיתח על פיו את מודל הרגרסיה הלוגיסטית שהציג ב-[1]1958.

מוטיבציה

יהי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} משתנה איכותי המקבל ללא הגבלת הכלליות שני ערכים: 1 ו-0, ויהי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} משתנה מסביר כלשהו.

כדי לבנות מודל לקשר אפשרי בין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} ובין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} נניח מספר הנחות:

  1. קיים משתנה רציף הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*} , כך שערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} שווה ל-0 אם ערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*} קטן מסף כלשהו, וערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} שווה ל-1 אם ערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*} גדול מסף זה. יש לשים לב כי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*} אינו חלק מהנתונים אלא חלק מהמודל. ללא הגבלת הכלליות נניח כי ערך הסף שווה ל-0, כלומר הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y=1} אם ורק אם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*>0} .
  2. קיים קשר ליניארי בין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*} ובין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} המבוטא על ידי המודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*=\beta_0 + \beta_1 \cdot X + \epsilon}
  3. התפלגותו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \epsilon} היא התפלגות לוגיסטית: הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle F(t)=\frac {e^t}{1+e^t}} לכל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle t} ממשי.

כן נניח למען הפשטות כי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} הוא משתנה בדיד.

נסמןהפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle p=P(Y=1|X=x)} ולכן הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle P(Y=0|X=x)=1-p} .

על פי ההנחה הראשונה אודות הקשר בין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} ובין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*} נקבל כי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle p=P(Y=1|X=x)=P(Y^*>0|X=x)}

על פי ההנחה השנייה אודות הקשר בין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} ובין הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y^*} נקבל כי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle p=P(Y^*>0|X=x)=P(\beta_0+\beta_1 \cdot x + \epsilon>0)=P( \epsilon<\beta_0+\beta_1 \cdot x)}

על פי ההנחה השלישית אודות ההתפלגות של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \epsilon} נקבל כי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle p=P( \epsilon<\beta_0+\beta_1 \cdot x)=\frac {e^{\beta_0+\beta_1 \cdot x}} {1+e^{\beta_0+\beta_1 \cdot x}}}

ולכן הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \log(\frac {p} {1-p})=\beta_0 + \beta_1 \cdot x}

תאוריה

הגדרה פורמלית

יהי Y משתנה מקרי בינארי המקבל ללא הגבלת הכלליות את הערכים 0 ו-1, ויהי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} משתנה מקרי רב ממדי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X=(X_1,...,X_I)} . נסמן: הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \pi(x)=P(Y=1|X_1=x_1,...,X_I=x_I)} ו- הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathbf{x}=(x_1,...,x_I)} .

מודל הרגרסיה הלוגיסטית הוא הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \log \frac {\pi(\mathbf{x})}{1-\pi(\mathbf{x})}=\beta_0 + \beta_1 \cdot \ x_1 + ... +\beta_I \cdot \ x_I }

הטרנספורמציה הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \log(\frac {m} {1-m})} מכונה טרנספורמציית לוגיט.

אמידה

בהינתן מדגם בגודל הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle N} , יהיו הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle y_j} ו-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathbf{x_j} = (x_{1j},...,x_{Ij})} הערכים הנצפים של התצפית ה-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle j} .

נסמן את הפרמטרים של המודל ב-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathbf{\beta} = (\beta_0, \beta_1,...,\beta_I)} . מאחר שההתפלגות של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle y_j} היא התפלגות ברנולי עם הסתברות להצלחה הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \pi( \mathbf{x_j})} , נקבל כי הנראות (likelihood) של התצפית ה-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle j} היא הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle L _j(\beta| y_j, \mathbf{x_j})= \pi (\mathbf{x_j})^{y_j} \cdot (1-\pi (\mathbf{x_j}))^{1-y_j} } ,

ולכן הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \log(L _j(\beta| y_j, \mathbf{x_j})) = {y_j} \cdot \log(\pi (\mathbf{x_j})) + ({1-y_j}) \log( \cdot (1-\pi (\mathbf{x_j})))} .

מכאן נקבל כי לוג פונקציית הנראות הוא הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle log(L(\mathbf{\beta}| y, \mathbf{x})) = \sum_j {y_j} \cdot \log(\pi (\mathbf{x_j})) + \sum_j ({1-y_j}) \log( \cdot (1-\pi (\mathbf{x_j})))} ,

ולכן אומד הנראות המקסימלית ל-הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathbf{\beta}} הוא הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \hat{\mathbf{\beta}}= \arg\max \log L(\mathbf{\beta} | \mathbf{y}, \mathbf{x})} .

בדרך כלל לא ניתן למצוא את המקסימום של לוג פונקציית הנראות באופן אנליטי ויש להשתמש בשיטות נומריות כדי לחשב את ערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \hat{\mathbf{\beta}}} .

פרשנות

למען הנוחות, נתייחס למודל עם משתנה מסביר אחד: הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle logit(\pi(x)) = \log (\frac {\pi(x)} {1-\pi(x)} ) = \beta_0 + \beta_1 \cdot x} .

  1. אם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \beta_1>0} אז גידול בערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle x} יביא לגידול בערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \pi(x)} . באופן דומה, אם הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \beta_1<0} אז גידול בערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle x} יביא להקטנת ערכו של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \pi(x)} .
  2. הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle e^{\beta_1}} הוא יחס הסיכויים (odds ratio) של הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle Y} בהינתן הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle X} .

יישומים

לרגרסיה לוגיסטית יש מספר יישומים אפשריים.

  1. זיהוי קשר בין משתנים: יחס הסיכויים הוא למעשה מקדם קשר בין משתנים. בעזרת רגרסיה לוגיסטית אפשר לזהות משתנים מסבירים שלהם יש קשר חזק עם המשתנה המוסבר. לדוגמה, חוקר המעוניין לזהות גורמי סיכון למחלה מסוימת, יכול לאסוף נתונים אודות גורמי סיכון פוטנציאליים למחלה כגון משקל, לחץ דם גיל, חשיפה למפגע סביבתי וכדומה ונתונים אלה יהיו המשתנים המסבירים. משתנה התגובה יציין לכל אדם במדגם האם הוא חולה במחלה או בריא. משתנים מסבירים עבורם יחס הסיכויים הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle e^{\beta}} הוא גבוה וגדול מ-1 באופן משמעותי הם גורמי סיכון פוטנציאליים למחלה. משתנים מסבירים עבור יחס הסיכויים נמוך וקטן מ-1 באופן משמעותי הם גורמים המפחיתים את הסיכון לחלות במחלה.
  2. סיווג וחיזוי: לאחר שאומדים את הפרמטרים הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathbf{\beta}} של מודל הרגרסיה, ניתן לחשב בעזרתו את ההסתברות כי עבור פרט מסוים עבורו נתונים רק ערכי המשתנים המסבירים, ערכו המשתנה המוסבר יהיה שווה ל-1. בהתאם לנסיבות ניתן לסווג את הערך של המשתנה המוסבר ל-1 או 0, או לחזות כי הוא יהיה שווה ל-1 או 0 על פי ההסתברות הזו. לדוגמה, חברה יכולה להשתמש בנתונים אודות הלקוחות כדי לחזות האם הלקוח ינטוש את החברה, על ידי כך שתאסוף נתונים אודות מדגם של לקוחות בנקודת זמן מסוימת, והמשתנה המוסבר יהיה האם הלקוח עזב את החברה במהלך השנה שלאחר מכן. בעזרת הפרמטרים שנאמדו החברה תוכל לחשב לכל לקוח את ההסתברות שינטוש את החברה בשנה הקרובה. החברה יכולה להחליט למשל כי אם עבור לקוח מסוים ההסתברות שלו לנטוש את החברה גדולה מ-70%, למשל, אזי יש לנקוט בפעולות לשימור הלקוח, כגון הצעת תנאים יותר טובים.

דוגמה

לצורך פיתוח שיטה לזיהוי של גידולים בשד כשפירים או סרטניים נדגמו 569 גידולים שסווגו כשפירים או סרטניים, ונאספו נתונים על התאים שבכל גידול[2].

לצורך הדוגמה נשתמש בארבעה נתונים מתוך כל הנתונים שנאספו. כל הנתונים הם ממוצעים של מדידות ממדגם של תאים מתוך כל גידול:

  1. רדיוס התא - radius
  2. מרקם התא - texture
  3. היקף התא - perimeter
  4. שטח הפנים של התא - area

הנתונים נותחו בעזרת הפונקציה glm של תוכנת R. אמדני הפרמטרים הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathbf{\beta}} נתונים בטבלה הבאה:

P-value z value Std. Error Estimate
<0.0001 -8.346 4.132106 -34.4869 (Intercept)
<0.0001 5.748 0.041969 0.241225 texture
<0.0001 -4.603 0.004719 -0.02173 area
<0.0001 6.404 0.072482 0.464194 perimeter

ניתן לראות כי כל האמדנים של ערכי הפענוח נכשל (SVG (אפשר להפעיל MathML בעזרת הרחבת דפדפן): תשובה בלתי־תקינה ("Math extension cannot connect to Restbase.") מהשרת "https://wikimedia.org/api/rest_v1/":): {\displaystyle \mathbf{\beta}} הם מובהקים סטטיסטית (כל ערכי ה-p קטנים מ-0.001), כלומר שונים באופן מובהק מאפס. אמדני הפרמטרים (הנמצאים בעמודת Estimate) המתאימים למרקם (texture) ולהיקף (perimeter) חיוביים, ומכאן שככל שערכיהם גבוהים יותר כך ההסתברות כי התא הנבדק סרטני גדולה יותר. לעומת זאת המקדם המתאים לשטח הפנים של התא שלילי, ומכאן שככל ששטח הפנים גדול יותר ההסתברות כי הגידול סרטני נמוכה יותר. פרשנות

האמדנים ליחסי הסיכויים (OR) ורווחי הסמך שלהם נתונים בטבלה הבאה:

high low OR
0.000 0.000 0.000 (Intercept)
1.378 1.168 1.273 texture
0.988 0.969 0.979 area
1.817 1.365 1.591 perimeter

(הערה: רווחי הסמך חושבו בעזרת שיטת הדלתה שאינה זמינה בפונקציית glm של R).

יחס הסיכויים הגבוה ביותר התקבל עבור משתנה ההיקף (OR=1.591), ומכאן שמבין שלושת הפרמטרים שנבדקו הקשר בינו ובין היות הגידול סרטני או שפיר הוא החזק ביותר. יש גם קשר חזק יחסית (OR=1.279) בין משתנה המרקם ובין סוג הגידול. יחס הסיכויים שבין שטח הפנים וסוג הגידול קרוב למדי לערך 1, ולא ברור אם יש לו משמעות רפואית.

הערות שוליים

  1. ^ Cox, David R, The regression analysis of binary sequences (with discussion), Journal of the Royal Statistical Society, Seires B, 2 20, 1958, עמ' 215–242
  2. ^ Breast Cancer Wisconsin (Diagnostic) Data Set, UCI Machune Learnng Depository
Logo hamichlol 3.png
הערך באדיבות ויקיפדיה העברית, קרדיט,
רשימת התורמים
רישיון cc-by-sa 3.0