הרצאה 5 - יסודות בלמידה חישובית

PDF

מה נלמד היום

בפרק זה נציג מעט מהתיאוריה הכמותית הקיימת בנושא למידה והכללה. המטרה הבסיסית של תיאוריה זו היא תיאור כמותי של בעיית הלמידה, אפיון הביצועים האפשריים עבור בעיית למידה נתונה, וחקר כמותי של השפעת המרכיבים השונים של הבעיה (כגון: סיבוכיות המודל, אופן בחירת הדגימות, מספר הדגימות, וכו') על הביצועים המתקבלים.

תיאוריה זו היא בעיקרה בעלת אופי סטטיסטי, כלומר מסתמכת על כלים הסתברותיים.

אנו נסתפק בהצגת מספר תוצאות ומושגים יסודיים, וזאת עבור בעיית הסיווג הבינארי בלבד.

מודל הלמידה הבסיסי

נזכור כי בבעיית הלמידה המודרכת אנו נדרשים "ללמוד" פונקציה y^=h(x)\hat{y}=h(\boldsymbol{x}) על סמך מדגם D={x(i),y(i)}i=1N\mathcal{D}=\{ \boldsymbol{x}^{(i)}, y^{(i)} \}_{i=1}^N.

המודל הבסיסי בו נעסוק כולל את המרכיבים הבאים:

  • פונקצית החיזוי - פונקציה y^=h(x)\hat{y}=h(\boldsymbol{x}) ממרחב הקלט X\mathcal{X} למרחב היציאה Y\mathcal{Y} אותה אנו רוצים ללמוד. נזכיר כי עבור בעיית רגרסיה מתקיים Y=R\mathcal{Y}=\mathbb{R} ועבור בעיית הסיווג הבינארי מתקיים Y={1,1}\mathcal{Y}=\{-1, 1\}. נניח כי התיוג דטרמניסטי.
  • מודל בחירת הדוגמאות - דוגמאות הקלט נבחרות באופן בלתי תלוי ולפי פילוג הסתברות קבוע (אך לא בהכרח ידוע), כלומר באופן i.i.d. כלומר מתקיים, x(i)PX,i=1,...,N\boldsymbol{x}^{(i)} \sim P_X, i=1,...,N. הדוגמאות מתויגות באופן מושלם לפי הפונקציה h0h_0, כלומר y(i)=h0(x(i))y^{(i)}=h_0(\boldsymbol{x}^{(i)}).
  • מודל פרמטרי - אוסף HH של פונקציות H:XYH: \mathcal{X} \rightarrow \mathcal{Y}, שמתוכו נבחר את הפונקציה h^\hat{h} אשר משערכת את פונקציית המטרה hh. כאשר HH תכונה כאן מחלקת ההשערות.

פונקציית הסיכון עבור השערה hHh \in H כלשהי תהיה מהצורה

R(h)=E[l(h(x),h0(x))]R(h)=E[\mathcal{l}(h(\mathbf{x}),h_0(\mathbf{x}))]

כאשר:

  • l(y^,y)\mathcal{l}(\hat{y},y) הינה פונקצית מחיר מתאימה. למשל פונקציית הפסד l2\mathcal{l}_2 לבעיית רגרסיה או zero-one loss לבעיית סיווג.
  • התוחלת היא על המשתנה המקרי x\mathbf{x} לפי הפילוג xPX\mathbf{x} \sim P_X. פילוג זה זהה לפילוג לפיו נבחרו הדוגמאות.
  • עבור בעיית הסיווג הבינארי נקבל R(h^)=P{h^(x)h0(x)}=Pe(h^)R(\hat{h})=P\{\hat{h}(\mathbf{x})\neq h_0(\mathbf{x})\}=P_e(\hat{h}). כאשר המעבר השני נכון בגלל תוחלת של אינדיקטור.

מטרת תהליך הלימוד היא, אם כן, לבחור את הפונקציה האופטימלית כתלות במדגם, hDh^{*}_{\mathcal{D}}, מתוך מחלקת ההשעערות HH, שמביאה את פונקציית הסיכון למינימום.

הבעיה היא כמובן ש-R(h)R(h) אינו ניתן לחישוב מתוך מדגם סופי!

הערות

  • חשוב להדגיש כי הדוגמאות {x(i)}\{\boldsymbol{x}^{(i)}\} נבחרות לפי אותו פילוג PXP_X המשמש בהגדרת מדד הביצועים. דבר זה יאפשר קבלת חסמים על קצב ושגיאת הלימוד שאינם תלויים ב-PXP_X.
  • המודל הנ"ל מניח קשר דטרמניסטי בין x\mathbf{x} ל-yy. ניתן להרחיב את התוצאות הללו למקרה של קשר אקראי, כלומר להחליף את הפונקציה y=h0(x)y=h_0(\mathbf{x}) בפילוג המותנה p(yx)p(y|\mathbf{x}).

המודל ההסתברותי שהגדרנו מאפשר התייחסות כמותית לשאלות הבאות:

  • דיוק הלמידה - באיזה דיוק ניתן ללמוד את פונקצית המטרה h0(x)h_0(\mathbf{x}) מתוך NN דוגמאות?
  • קצב הלמידה - כמה דוגמאות נדרשות כדי להשיג דיוק נתון?

מזעור המחיר האמפירי (Emperical Risk Minimization)

בהיעדר מידע לגב הפילוג, ניתן להחליף את המזעור של פונקציית הסיכון האמיתית, RR, במזעור של פונקציית הסיכון האמפירית, R^\hat{R}, אותה אנחנו יכולים לחשב על סמך המדגם.

כלומר, בהינתן המדגם D={x(i),y(i)}i=1N\mathcal{D}=\{\boldsymbol{x}^{(i)}, y^{(i)}\}_{i=1}^N , נבחר את ההשערה hDh^{*}_{\mathcal{D}} באופן הבא:

hDargminhHR^D(h),R^D(h)=1Ni=1Nl(h(x(i)),h0(x(i)))h^{*}_{\mathcal{D}}\in \underset{{h\in H}}{\arg\min} \hat{R}_{\mathcal{D}}(h), \qquad \hat{R}_{\mathcal{D}}(h) = \frac{1}{N}\sum_{i=1}^{N}\mathcal{l}(h(\boldsymbol{x}^{(i)}),h_0(\boldsymbol{x}^{(i)}))

לדוגמה:

  • עבור בעיית רגרסיה עם פונקציית הפסד מסוג l2\mathcal{l}_2 נקבל את פונקציית הסיכון הבאה:
R^D(h)=1Ni=1N(h(x(i))h0(x(i)))2\hat{R}_{\mathcal{D}}(h) = \frac{1}{N}\sum_{i=1}^{N}(h(\boldsymbol{x}^{(i)})-h_0(\boldsymbol{x}^{(i)}))^2
  • עבור בעיות סיווג נקבל:
R^D(h)=1Ni=1NI(h(x(i))h0(x(i)))\hat{R}_{\mathcal{D}}(h) = \frac{1}{N}\sum_{i=1}^{N}I(h(\boldsymbol{x}^{(i)})\neq h_0(\boldsymbol{x}^{(i)}))

כאשר מדובר במספר השגיאות הממוצע של המסווג על סט הלימוד.

נניח מעתה כי hDh^{*}_{\mathcal{D}} היא אכן הפונקציה הנבחרת על ידי אלגוריתם הלמידה שלנו. בפרט, אנו מניחים כי ניתן למצוא את המינימום הגלובאלי של R^D(h)\hat{R}_{\mathcal{D}}(h) , מבלי להתייחס לקושי החישובי הכרוך בכך.

הערה: למרות שאנו מניחים מזעור של השגיאה האמפירית אין לראות בכך המלצה לעשות זאת! גישה זו יכולה להוביל להתאמת-יתר חמורה עבור מרחב השערות גדול.

שגיאת ההכללה לעומת שגיאת הקירוב

נסמן - hargminhHR^(h)h^* \in \underset{h\in H}{\arg \min} \hat{R}(h) - בתור ההשערה האופטימלית שאינה ניתנת לחישוב.

ניתן לרשום את פונקציית הסיכון המתקבלת בצורה הכאה:

R(hD)=R(h)+[R(hD)R(h)]R(h^{*}_{\mathcal{D}})=R(h^*)+[R(h^{*}_{\mathcal{D}})-R(h^*)]
  • האיבר הראשון הוא שגיאת הקירוב (בדומה למשתנה ההטיה, bias), אשר נובע מכך שאנו מגבילים את הפונקציה הנלמדת לקבוצת ההשערות HH. הוא אינו תלוי במספר הדגימות.
  • האיבר השני הוא שגיאת השערוך (בדומה למשתנה השונות), ומבטא את השגיאה הנובעת מסופיות המדגם עקב כך שהפונקציה הנבחרת hDh^{*}_{\mathcal{D}} אינה האופטימלית (מתוך HH). זאת מכיוון שאנו מבצעים מינימיזציה של הסיכון האמפירי ולא של הסיכון האמיתי.
  • ככל שמחלקת ההשערות HH עשירה (גדולה) יותר, אנו מצפים כי האיבר הראשון (איבר ההטיה) יקטן, והאיבר השני (איבר השונות) יגדל.
  • עושר המודל (HH) צריך להיות כזה המוצא איזון אופטימאלי בין שני איברים אלה.

חסמים עבור מחלקת השערות סופית

נתמקד מעתה בבעית הסיווג הבינארי, כלומר בעיות סיווג עם פונקצית הפסד מסוג zero-one loss:

l(y^,y)=I{y^y},Y={1,+1}\mathcal{l}(\hat{y},y)=I\{\hat{y} \neq y\}, \mathcal{Y}=\{-1,+1\}

מטרתנו למצוא חסמים על פונקציית הסיכון R(hD)R(h^{*}_{\mathcal{D}}), כאשר hDh^{*}_{\mathcal{D}} היא הפונקציה (ההשערה) המביאה למינימום את המחיר האמפירי R^D(h)\hat{R}_{\mathcal{D}}(h).

נשים לב כי במקרה הבינארי המחיר האמפירי איננו אלא השגיאה האמפירית (למה?).

ראשית נעסוק במקרה בו h0Hh_0\in H, כלומר במקרה בו פונקציה המטרה h0h_0 כלולה בתוך קבוצת ההשערות HH.

כלומר:

R=minhHR(h)=0R^*=\underset{h \in H}{\min}R(h)=0

משפט 1

נניח כי H<|H| < \infty וכן h0Hh_0 \in H, כלומר R=0R^*=0. אזי, השערה hDh^{*}_{\mathcal{D}} הממזערת את הסיכון האמפירי מקיימת לכל ε>0\varepsilon > 0

P(R(hD)>ε)<HeεnP(R(h^{*}_{\mathcal{D}})>\varepsilon) < |H|e^{-\varepsilon n}

ניתן להגדיר את המשפט גם בצורה שקולה באמצעות "רווח סמך" (confidence interval).

רווח סמך הוא מושג מסטטסיטיקה. מושג זה מתאר, עבור פרמטר לא ידוע כלשהו, קטע שמחושב מתוך תוצאות המדגם, כך שהסיכוי שהקטע שנקבל יכלול את הפרמטר הוא קבוע, הקרוי רמת הסמך של הקטע. המשלים לרמת הסמך קרוי רמת המובהקות.

ניסוח מתמטי של רווח סמך הוא:

בהינתן מדגם D={x(i)}\mathcal{D}=\{\boldsymbol{x}^{(i)}\} מהתפלגות FθF_{\theta} הידועה למעט ערכו של הפרמטר θ\theta, רווח סמך בעל רמת מובהקות α\alpha הוא קטע שקצוותיו מחושבים על פי המדגם כך שההסתברות של הפרמטר θ\theta להיות בתוך קטע זה היא 1α1-\alpha.

משפט 1 - בניסוח רווח סמך

על ידי השוואת אגף ימין ל-δ\delta, כלומר בחירת ε=1NlogHδ\varepsilon=\frac{1}{N} \log\frac{|H|}{\delta}, ניתן לקבל את הצורה הבאה של המשפט, כאשר הפרמטר δ\delta נקרא רווח הסמך:

  • לכל δ>0\delta>0 מתקיים בהתסברות של (1δ)(1-\delta) לפחות R(hD)<1NlogHδR(h^{*}_{\mathcal{D}}) < \frac{1}{N} \log\frac{|H|}{\delta}

משפט 1 - ניסוח סיבוכיות המדגם

החסם שקיבלנו מאפשר לנו לבחור את גודל המדגם NN המבטיח שגיאה קטנה כרצוננו, ובהתסברות גבוהה כרצוננו, אם N>1εlogHδN>\frac{1}{\varepsilon} \log\frac{|H|}{\delta}, נקבל כי R(hD)R(h^{*}_{\mathcal{D}}) בהסתברות 1δ1-\delta לפחות.

משפט 1 - ניסוח חסם על התוחלת

ננסח בנוסף חסם עבור התוחלת.

עבור השערה hDh^{*}_{\mathcal{D}} אי שלילית, התוחלת שלה, E[R(hD)]E[R(h^{*}_{\mathcal{D}})], חסומה על ידי

E[R(hD)]<1+log(H)N=O(1N)E[R(h^{*}_{\mathcal{D}})] < \frac{1+\log(|H|)}{N} = \mathcal{O}\biggl(\frac{1}{N}\biggr)

מספר מונחים בסיסיים בלמידה חישובית:

אלגוריתם כלשהו לבחירת hDHh^{*}_{\mathcal{D}} \in H שעבורו P(R(hD)>ε)0P(R(h^{*}_{\mathcal{D}})>\varepsilon) \rightarrow 0 כאשר NN \rightarrow \infty (לכל h0Hh_0 \in H) נקרא אלגוריתם Probably Approximately Correct או בקיצור PAC. קבוצת השערות HH שעבורה קיים אלגוריתם PAC נקראת ברת-למידה (Learnable).

משפט 1 מראה כי האלגוריתם הממזער את השגיאה האמפירית הוא אלגוריתם PAC עבור כל קבוצת השערות סופית (ולפיכך כל קבוצת השערות סופית היא ברת למידה).

נעבור כעת למקרה הכללי יותר שבו פונקצית המטרה h0h_0 אינה כלולה בהכרח בקבוצת ההשערות HH, ולמעשה איננו מניחים הנחה כלשהי לגביה. במקרה זה R0R^* \neq 0.

משפט 2

נניח כי H<|H| < \infty ונסמן שוב R=minhHR(h)R^*=\underset{h \in H}{\min}R(h). אזי, לכל ε>0\varepsilon > 0

P(R(hD)>R+ε)<2He12ε2nP(R(h^{*}_{\mathcal{D}})>R^* + \varepsilon) < 2|H|e^{-\frac{1}{2}\varepsilon^2 n}

הערות:

  • ניתן לראות כי חסם זה חלש מהקודם, כיוון שקצה הדעיכה המעריכי של הסתברות הטעות הינו ε2\varepsilon^2
  • מהי סיבוכיות המדגם?
משפט 2 - בניסוח רווח סמך

ניסוח רווח סמך עבור משפט זה הוא - R(hD)<R+2Nlog2HδR(h^{*}_{\mathcal{D}}) < R^* + \sqrt{\frac{2}{N}\log\frac{2|H|}{\delta}} בהסתברות 1δ1-\delta לפחות. האיבר הראשון (RR^*) מבטא את שגיאת הקירוב, אותה אי אפשר למזער, והשני את שגיאת השערוך.

משפט 2 - ניסוח חסם על התוחלת

ננסח בנוסף חסם עבור התוחלת.

עבור השערה hDh^{*}_{\mathcal{D}} אי-שלילית, מתקים כי E[R(hD)]RE[R(h^*_{\mathcal{D}})]-R^*, חסומה על ידי

E[R(hD)]R=O(logHN)E[R(h^{*}_{\mathcal{D}})] - R^* = \mathcal{O}\biggl(\frac{\log |H|}{N}\biggr)

הוכחת המשפטים

על מנת להוכיח את המשפטים נגדיר את ההגדרות הבאות:

אוסף ההשערות ב-HH העקביות עם הנתונים מוגדר להיות ה-version space. אוסף השערות זה מוגדר בצורה הבאה

VSH={hjH:R^D(h(j))=0,j=1,2,...,H}VS_{H} = \{h_j \in H : \hat{R}_{\mathcal{D}}(h^{(j)})=0, j=1,2,...,|H| \}

עבור אלגוריתם ההמזער את השגיאה האמפירית ידוע כי מתקיים hDVSHh^{*}_{\mathcal{D}} \in VS_H.

אוסף ההשערות הרעות ב-HH מוגדר בצורה הבאה:

B={hjH:R(h(j))>ϵ,j=1,2,...,H}B = \{h_j \in H : R(h^{(j)})>\epsilon, j=1,2,...,|H| \}

הערות:

  • שימו לב שההשערות העקביות מוגדרות ע"י השגיאה האמפירית, בעוד שההשערות הרעות מוגדרות ע"י השגיאה ה"אמיתית".
  • הקבוצה BB אינה אקראית, כלומר אינה תלויה במדגם.
  • ככל שגודל המדגם גדל, הקבוצה VSHVS_H (התלויה במדגם) קטנה.

אנו מעוניינים להעריך את ההסתברות שקיימת השערה רעה שהיא עקבית, כלומר, h(VSHB)h\in(VS_H \cap B).

בשביל ההוכחה נצטרך את חסם האיחוד (union bound) שהוא

P(i=1NAi)i=1NP(Ai)Nmax1iNP(Ai)P(\cup_{i=1}^NA_i)\le\sum_{i=1}^N P(A_i) \le N \underset{1 \le i \le N}{\max}P(A_i)

כאשר שוויון מתקיים אם המאורעות זרים.

הוכחת משפט 1

נתבונן בהשערה מסוימת hjh_j כך שמתקיים

P(hj(x(i))=y(i)andhjB)<1εP(h_j(x^{(i)})=y^{(i)}\quad\text{and}\quad h_j \in B) < 1-\varepsilon

נשים לב שההסתברות היא רק ביחס למשתנה האקראי x(i)x^{(i)} כאשר אנו מגבילים את עצמנו ל-hjBh_j \in B שכן BB היא קבוצה לא אקראית.

בגלל שהדגימות i.i.d מתקיים

P(hj(VSHB))<(1ε)NP(h_j \in (VS_H \cap B)) < (1-\varepsilon)^N

נגדיר את hj(VSHB)h_j \in (VS_H \cap B) להיות המאורע AjA_j ונשתמש בחסם האיחוד כך שנקבל

P(hj(VSHB)B(1ε)N)P(\exist h_j \in (VS_H \cap B) \le |B|(1-\varepsilon)^N)

הגודל של הקבוצה BB אינו ידוע ולכן נרשום

P(hj(VSHB)H(1ε)N)HeεNP(\exist h_j \in (VS_H \cap B) \le |H|(1-\varepsilon)^N) \le |H|e^{-\varepsilon N}

כאשר האי שוויון האחרון נובע מתוך 1εeε1-\varepsilon \le e^{-\varepsilon}.

מ.ש.ל

הוכחת משפט 2

ראשית נזכר באי שייון צ'בישב

P(XE[X]>ε)Var[X]ε2P(|X-E[X]|>\varepsilon) \le \frac{Var[X]}{\varepsilon^2}

אנו מעוניינים במקרה שבו X=1Ni=1NZ(i)X=\frac{1}{N}\sum_{i=1}^NZ^{(i)} ו-{Z(i)}i=1N\{Z^{(i)}\}_{i=1}^N משתנים i.i.d. במקרה זה חסם צ'בישב הוא

P(1Ni=1N(Z(i)E[Z(i)])>ε)Var[i=1NZ(i)]N2ε2=Var[Z(1)]Nε2P\biggl(|\frac{1}{N}\sum_{i=1}^{N}(Z^{(i)}-E[Z^{(i)}])|> \varepsilon \biggr) \le \frac{Var\biggl[\sum_{i=1}^{N}Z^{(i)}\biggr]}{N^2\varepsilon^2} = \frac{Var[Z^{(1)}]}{N\varepsilon^2}

נשים לב לכך שחסם צ'בישב דועך בצורה איטית.

היינו רוצים להשיג חסם טוב יותר, כלומר חסם שדועך בצורה יותר מהירה. לשם כך נציג את אי שוויון Hoeffding.

אי שוויון Hoeffding: יהי {Z(i)}i=1N\{Z^{(i)}\}_{i=1}^N משתנים אקראים i.i.d המוגבלים בקטע סופי aZ(i)ba \le Z^{(i)} \le b אזי

P(1Ni=1N(Z(i)E(Z(i)))>ε)2exp(2Nε2(ba)2)P\biggl(|\frac{1}{N}\sum_{i=1}^N(Z^{(i)}-E(Z^{(i)}))|>\varepsilon\biggr) \le 2 \exp \biggl(- \frac{2N\varepsilon^2}{(b-a)^2} \biggr)

לחסם זה יש קצב מעריכי.

שימו לב שחסם זה מתעלם משונות המשתנה האקראי. ניתן לקחת אותה בחשבון לצורך שיפור החסם.

מטרתנו בהוכחה זאת היא לחסום את P(R(hD)R>ε)P(R(h^{*}_{\mathcal{D}})-R^* > \varepsilon).

לשם כך נוכיח את אי השוויונות הבאים:

R(hD)R<2maxhHR(h)R(hD)R(h^{*}_{\mathcal{D}})-R^* < 2 \underset{h \in H}{\max}|R(h)-R(h^{*}_{\mathcal{D}})|

לשם פשטות נניח כי קיים hHh^* \in H כך שמתקיים R=R(h)R^*=R(h^*) אזי

R(hD)R=R(hD)R^D(hD)+R^D(hD)R[R(hD)R^D(hD)]+[R^D(h)R]2maxhHR(h)RD(h)\begin{aligned} R(h^{*}_{\mathcal{D}})-R^* &= R(h^{*}_{\mathcal{D}}) - \hat{R}_{\mathcal{D}}(h^{*}_{\mathcal{D}}) + \hat{R}_{\mathcal{D}}(h^{*}_{\mathcal{D}}) - R^* \\ &\le [R(h^{*}_{\mathcal{D}}) - \hat{R}_{\mathcal{D}}(h^{*}_{\mathcal{D}})] + [\hat{R}_{\mathcal{D}}(h^*) - R^*] \\ &\le 2 \underset{h \in H}{\max}|R(h)-R_{\mathcal{D}}(h)| \end{aligned}

כעת, נרצה להשתמש בחסם Hoeffding. לשם כך נשים לב כי מתקיים:

R^D(h)=1Ni=1NZ(i),Z(i)=I{h(x(i))y(i)},E(Z(i))=L(h)\hat{R}_{\mathcal{D}}(h)=\frac{1}{N}\sum_{i=1}^N Z^{(i)}, \quad Z^{(i)}=I\{h(x^{(i)}) \neq y^{(i)} \}, \quad E(Z^{(i)}) = L(h)

כעת נציב בחסם Hoeefding עם a=0,b=1,ε2a=0, b=1, \frac{\varepsilon}{2} ונקבל

P(R(h)R^D(h))>ε2)2exp(Nε22)P(|R(h)-\hat{R}_{\mathcal{D}}(h)|) > \frac{\varepsilon}{2}) \le 2 \exp \biggl(-N \frac{\varepsilon^2}{2} \biggr)

סה"כ, נוכל להשתמש באי השוויונות שהוכחנו ובחסם האיחוד כך שנקבל

P(R(hD)R)>ε)P(maxhHR(h)R^D(h)>ε2)HmaxhHP(R(h)R^D(h)ε2)2Hexp(Nε22)\begin{aligned} P(|R(h^{*}_{\mathcal{D}})-R^*|) > \varepsilon) &\le P\biggl(\underset{h \in H}{\max}|R(h)-\hat{R}_{\mathcal{D}}(h)| > \frac{\varepsilon}{2}\biggr) \\ &\le |H|\underset{h \in H}{\max}P\biggl(|R(h)-\hat{R}_{\mathcal{D}}(h)|\frac{\varepsilon}{2}\biggr) \\ &\le 2 |H| \exp(-N\frac{\varepsilon^2}{2}) \end{aligned}

נשים לב שמאורע המקסימום שקול למאורע איחוד המאורעות ולכן נוכל להשתמש בחסם האיחוד במעבר מהשורה הראשונה לשנייה.

ובכך מסתכמת הוכחת המשפט השני.

הוכחת החסם על התוחלת

יהי ZZ משתנה אקראי אי-שלילי כך שמתקיים P(Z>t)ce2Nt2P(Z>t)\le c e^{-2Nt^2}.

נחשב את התוחלת של Z2Z^2. לשם כך נצטרך להשתמש בנוסחת הזנב.

תזכורת, יהי XX משתנה קראי אי שלילי עם פוקציית התפלגות PP. התוחלת של XX מקיימת

E[X]=0P(X>x)dxE[X] = \int_0^{\infty} P(X > x) dx

מתקיים

E[Z2]=0P(Z2>t)dt=0uP(Z2>t)dt+uP(Z2>t)dtu+uP(Z2>t)dtu+cue2Ntdt=u+c2Ne2Nu\begin{aligned} E[Z^2] &= \int_0^{\infty} P(Z^2 > t) dt \\ &= \int_0^{u} P(Z^2 > t) dt + \int_u^{\infty} P(Z^2 > t) dt \\ &\le u + \int_u^{\infty} P(Z^2 > t) dt \\ &\le u + c \int_u^{\infty} e^{-2Nt} dt \\ &= u + \frac{c}{2N}e^{-2Nu} \end{aligned}

כאשר המעבר בין השורה הראשונה לשנייה נכון עבור כל u0u \ge 0.

ניתן למצוא על ידי גזירה והשוואה ל-0 את הערך uu שמביא למינימום את הביטוי, u=logc2Nu=\frac{\log c}{2N}.

כלומר,

E[Z2]logc2NE[Z^2] \le \frac{\log c}{2N}

לכן, עבור משתנה אקראי מהסוג R(hD)RR(h^{*}_{\mathcal{D}})-R שמקיים

P(R(hD)>R+ε)<2He12ε2nP(R(h^{*}_{\mathcal{D}})>R^* + \varepsilon) < 2|H|e^{-\frac{1}{2}\varepsilon^2 n}

מתקיים כי

E[R(hD)]R=O(logHN)E[R(h^{*}_{\mathcal{D}})] - R^* = \mathcal{O}\biggl(\frac{\log |H|}{N}\biggr)

ובכך מסתכמת הוכחת החסם על התוחלת.

מגבלות החסמים שפותחו

ראינו חסם מהצורה הבאה, R(hD)<R+2Nlog2HδR(h^{*}_{\mathcal{D}}) < R^* + \sqrt{\frac{2}{N}\log\frac{2|H|}{\delta}}, בהסתברות (1δ)(1-\delta) לפחות.

אנו יכולים לפרש את האיבר השני כאיבר המודד את מורכבות מחלקת ההשערות – במקרה זה מורכבות נמדדת ע"ס גודל הקבוצה.

אבל חסם זה אינו תלוי בפילוג הדוגמאות, במדגם והוא ספציפי לאלגוריתם מזעור השגיאה האמפירית.

מקור עוצמתו הוא גם מקור חולשתו, שכן הוא מטפל במקרה הגרוע ביותר ואינו מנצלים את המבנה של בעיה נתונה. חסמים משופרים קיימים היום, אך קשים להוכחה במידה ניכרת. חסמים אלה הם מהצורה:

בהסתברות גדולה מ 1δ1-\delta , אלגוריתם נתון (לא בהכרח מזעור שגיאה אמפירית) הבוחר השערה hDh^{*}_{\mathcal{D}} מקיים

R(hD)<R+Ω(hD,D,H)R(h^{*}_{\mathcal{D}}) < R^* + \Omega(h^{*}_{\mathcal{D}}, \mathcal{D}, H)

כאשר Ω(hD,D,H)\Omega(h^{*}_{\mathcal{D}}, \mathcal{D}, H) איבר מורכבות הדועך לאפס עבור nn \rightarrow \infty.