בערך זה נעשה שימוש בסימנים מוסכמים מתחום המתמטיקה. להבהרת הסימנים ראו סימון מתמטי .
הקו האדום מתאר את ההתפלגות המצטברת. הקו הכחול מתאר את ההתפלגות המצטברת האמפירית לפי המדגם. אורכו של החץ השחור הוא המרחק בין ההתפלגויות (המקום שבו המרחק ביניהן הוא מקסימלי). לפי המשפט המרחק בין ההתפלגויות שואף ל-0 כמעט בוודאות.
בתורת ההסתברות , משפט גליבנקו-קנטלי (המכונה לפעמים המשפט היסודי של הסטטיסטיקה ), על שם ולרי איבנוביץ' גליבנקו ופרנצ'סקו פאולו קנטלי ,
אומר שכאשר גודל המדגם שואף לאינסוף, פונקציית ההתפלגות המצטברת האמפירית המבוססת על אותו המדגם מתכנסת במידה שווה כמעט בוודאות לפונקציית ההתפלגות המצטברת ממנה לקוח המדגם .[1]
ניסוח פורמלי
נניח ש
X
1
,
X
2
,
…
{\displaystyle X_{1},X_{2},\dots }
הם משתנים מקריים בלתי תלויים ושווי התפלגות עם פונקציית התפלגות מצטברת
F
(
x
)
{\displaystyle F(x)}
. פונקציית ההתפלגות המצטברת האמפירית עבור
X
1
,
…
,
X
n
{\displaystyle X_{1},\dots ,X_{n}}
מוגדרת על ידי
F
n
(
x
)
=
1
n
∑
i
=
1
n
I
[
X
i
,
∞
)
(
x
)
=
1
n
|
{
i
∣
X
i
≤
x
,
1
≤
i
≤
n
}
|
{\displaystyle F_{n}(x)={\tfrac {1}{n}}\sum _{i=1}^{n}I_{[X_{i},\infty )}(x)={\tfrac {1}{n}}\ {\biggl |}\left\{\ i\ \mid X_{i}\leq x,\ 1\leq i\leq n\right\}{\biggr |}}
כאשר
I
C
{\displaystyle I_{C}}
היא פונקציה מציינת של הקבוצה
C
{\displaystyle C}
.
לכל
x
{\displaystyle x}
ממשי, לפי החוק החזק של המספרים הגדולים ,
F
n
(
x
)
{\displaystyle \ F_{n}(x)\ }
היא סדרה של משתנים מקריים המתכנסת ל-
F
(
x
)
{\displaystyle F(x)}
כמעט בוודאות . גליבנקו וקנטלי חיזקו תוצאה זו על ידי הוכחה של התכנסות במידה שווה של
F
n
{\displaystyle \ F_{n}\ }
ל-
F
{\displaystyle F}
.
משפט[2]
‖
F
n
−
F
‖
∞
=
sup
x
∈
R
|
F
n
(
x
)
−
F
(
x
)
|
→
a
.
s
.
0
{\displaystyle \|F_{n}-F\|_{\infty }=\sup _{x\in \mathbb {R} }{\biggl |}F_{n}(x)-F(x){\biggr |}\xrightarrow {a.s.} 0}
הסימון .a.s משמעותו התכנסות כמעט בוודאות.
משפט זה הוכח על ידי ולרי גליבנקו[3] ופרנצ'סקו קנטלי ,[4] בשנת 1933.
הוכחה
שימו לב שמתקיים
F
(
x
)
=
Pr
(
X
i
≤
x
)
{\displaystyle F(x)=\Pr(X_{i}\leq x)}
ו-
F
(
x
−
)
=
Pr
(
X
i
<
x
)
{\displaystyle F(x-)=\Pr(X_{i}<x)}
.
כמו כן נזדקק גם לסימון:
F
n
(
x
−
)
=
1
n
∑
i
=
1
n
I
(
X
i
,
∞
)
(
x
)
=
1
n
|
{
i
∣
X
i
<
x
,
1
≤
i
≤
n
}
|
{\displaystyle F_{n}(x-)={\tfrac {1}{n}}\sum _{i=1}^{n}I_{(X_{i},\infty )}(x)={\tfrac {1}{n}}\ {\biggl |}\left\{\ i\ \mid X_{i}<x,\ 1\leq i\leq n\right\}{\biggr |}}
.
לפי החוק החזק של המספרים הגדולים
F
n
(
x
)
→
a
.
s
.
F
(
x
)
{\displaystyle F_{n}(x)\xrightarrow {a.s.} F(x)}
ו-
F
n
(
x
−
)
→
a
.
s
.
F
(
x
−
)
{\displaystyle F_{n}(x-)\xrightarrow {a.s.} F(x-)}
לכל
x
{\displaystyle x}
.
לכל
ϵ
>
0
{\displaystyle \epsilon >0}
קיימת חלוקה
−
∞
=
x
0
<
x
1
<
⋯
<
x
m
−
1
<
x
m
=
∞
{\displaystyle -\infty =x_{0}<x_{1}<\cdots <x_{m-1}<x_{m}=\infty }
המקיימת,
F
(
x
j
−
)
−
F
(
x
j
−
1
)
<
ϵ
{\displaystyle F(x_{j}-)-F(x_{j-1})<\epsilon }
לכל
j
=
1
,
…
,
m
{\displaystyle j=1,\dots ,m}
. (את המקומות שבהן
F
{\displaystyle F}
קופצת ב-
ϵ
{\displaystyle \epsilon }
או יותר בוחרים כחלק מנקודות החלוקה.) בגלל המונוטוניות הלא יורדת של כל הפונקציות המעורבות, לכל
x
j
−
1
≤
x
<
x
j
{\displaystyle x_{j-1}\leq x<x_{j}}
מתקיים,
F
n
(
x
)
−
F
(
x
)
≤
F
n
(
x
j
−
)
−
F
(
x
j
−
1
−
)
+
ϵ
F
n
(
x
)
−
F
(
x
)
≥
F
n
(
x
j
−
1
)
−
F
(
x
j
)
−
ϵ
{\displaystyle {\begin{aligned}F_{n}(x)-F(x)&\leq F_{n}(x_{j}-)-F(x_{j-1}-)+\epsilon \\F_{n}(x)-F(x)&\geq F_{n}(x_{j-1})-F(x_{j})-\epsilon \end{aligned}}}
ההתכנסות של
F
n
(
x
)
{\displaystyle F_{n}(x)}
ושל
F
n
(
x
−
)
{\displaystyle F_{n}(x-)}
לכל
x
{\displaystyle x}
נתון היא במידה שווה על הקבוצה הסופית
{
x
1
,
.
.
.
,
x
m
−
1
}
{\displaystyle \{x_{1},...,x_{m-1}\}}
. לכן,
lim
sup
‖
F
n
−
F
‖
∞
≤
ϵ
{\displaystyle \lim \sup \|F_{n}-F\|_{\infty }\leq \epsilon }
כמעט בוודאות.
מאחר שזה נכון לכל
ϵ
>
0
{\displaystyle \epsilon >0}
, נובעת נכונות המשפט.[2]
ראו גם
הערות שוליים
38411159 משפט גליבנקו-קנטלי