בפרק זה נציג מעט מהתיאוריה הכמותית הקיימת בנושא למידה והכללה. המטרה הבסיסית של תיאוריה זו היא תיאור כמותי של בעיית הלמידה, אפיון הביצועים האפשריים עבור בעיית למידה נתונה, וחקר כמותי של השפעת המרכיבים השונים של הבעיה (כגון: סיבוכיות המודל, אופן בחירת הדגימות, מספר הדגימות, וכו') על הביצועים המתקבלים.
תיאוריה זו היא בעיקרה בעלת אופי סטטיסטי, כלומר מסתמכת על כלים הסתברותיים.
אנו נסתפק בהצגת מספר תוצאות ומושגים יסודיים, וזאת עבור בעיית הסיווג הבינארי בלבד.
מודל הלמידה הבסיסי
נזכור כי בבעיית הלמידה המודרכת אנו נדרשים "ללמוד" פונקציה y^=h(x) על סמך מדגם D={x(i),y(i)}i=1N.
המודל הבסיסי בו נעסוק כולל את המרכיבים הבאים:
פונקצית החיזוי - פונקציה y^=h(x) ממרחב הקלט X למרחב היציאה Y אותה אנו רוצים ללמוד. נזכיר כי עבור בעיית רגרסיה מתקיים Y=R ועבור בעיית הסיווג הבינארי מתקיים Y={−1,1}. נניח כי התיוג דטרמניסטי.
מודל בחירת הדוגמאות - דוגמאות הקלט נבחרות באופן בלתי תלוי ולפי פילוג הסתברות קבוע (אך לא בהכרח ידוע), כלומר באופן i.i.d. כלומר מתקיים, x(i)∼PX,i=1,...,N.
הדוגמאות מתויגות באופן מושלם לפי הפונקציה h0, כלומר y(i)=h0(x(i)).
מודל פרמטרי - אוסף H של פונקציות H:X→Y, שמתוכו נבחר את הפונקציה h^ אשר משערכת את פונקציית המטרה h. כאשר H תכונה כאן מחלקת ההשערות.
פונקציית הסיכון עבור השערה h∈H כלשהי תהיה מהצורה
R(h)=E[l(h(x),h0(x))]
כאשר:
l(y^,y) הינה פונקצית מחיר מתאימה. למשל פונקציית הפסד l2 לבעיית רגרסיה או zero-one loss לבעיית סיווג.
התוחלת היא על המשתנה המקרי x לפי הפילוג x∼PX. פילוג זה זהה לפילוג לפיו נבחרו הדוגמאות.
עבור בעיית הסיווג הבינארי נקבל R(h^)=P{h^(x)=h0(x)}=Pe(h^). כאשר המעבר השני נכון בגלל תוחלת של אינדיקטור.
מטרת תהליך הלימוד היא, אם כן, לבחור את הפונקציה האופטימלית כתלות במדגם, hD∗, מתוך מחלקת ההשעערות H, שמביאה את פונקציית הסיכון למינימום.
הבעיה היא כמובן ש-R(h) אינו ניתן לחישוב מתוך מדגם סופי!
הערות
חשוב להדגיש כי הדוגמאות {x(i)} נבחרות לפי אותו פילוג PX המשמש בהגדרת מדד הביצועים. דבר זה יאפשר קבלת חסמים על קצב ושגיאת הלימוד שאינם תלויים ב-PX.
המודל הנ"ל מניח קשר דטרמניסטי בין x ל-y. ניתן להרחיב את התוצאות הללו למקרה של קשר אקראי, כלומר להחליף את הפונקציה y=h0(x) בפילוג המותנה p(y∣x).
המודל ההסתברותי שהגדרנו מאפשר התייחסות כמותית לשאלות הבאות:
דיוק הלמידה - באיזה דיוק ניתן ללמוד את פונקצית המטרה h0(x) מתוך N דוגמאות?
קצב הלמידה - כמה דוגמאות נדרשות כדי להשיג דיוק נתון?
מזעור המחיר האמפירי (Emperical Risk Minimization)
בהיעדר מידע לגב הפילוג, ניתן להחליף את המזעור של פונקציית הסיכון האמיתית, R, במזעור של פונקציית הסיכון האמפירית, R^, אותה אנחנו יכולים לחשב על סמך המדגם.
כלומר, בהינתן המדגם D={x(i),y(i)}i=1N , נבחר את ההשערה hD∗ באופן הבא:
עבור בעיית רגרסיה עם פונקציית הפסד מסוג l2 נקבל את פונקציית הסיכון הבאה:
R^D(h)=N1i=1∑N(h(x(i))−h0(x(i)))2
עבור בעיות סיווג נקבל:
R^D(h)=N1i=1∑NI(h(x(i))=h0(x(i)))
כאשר מדובר במספר השגיאות הממוצע של המסווג על סט הלימוד.
נניח מעתה כי hD∗ היא אכן הפונקציה הנבחרת על ידי אלגוריתם הלמידה שלנו. בפרט, אנו מניחים כי ניתן למצוא את המינימום הגלובאלי של R^D(h) , מבלי להתייחס לקושי החישובי הכרוך בכך.
הערה: למרות שאנו מניחים מזעור של השגיאה האמפירית אין לראות בכך המלצה לעשות זאת! גישה זו יכולה להוביל להתאמת-יתר חמורה עבור מרחב השערות גדול.
שגיאת ההכללה לעומת שגיאת הקירוב
נסמן - h∗∈h∈HargminR^(h) - בתור ההשערה האופטימלית שאינה ניתנת לחישוב.
ניתן לרשום את פונקציית הסיכון המתקבלת בצורה הכאה:
R(hD∗)=R(h∗)+[R(hD∗)−R(h∗)]
האיבר הראשון הוא שגיאת הקירוב (בדומה למשתנה ההטיה, bias), אשר נובע מכך שאנו מגבילים את הפונקציה הנלמדת לקבוצת ההשערות H. הוא אינו תלוי במספר הדגימות.
האיבר השני הוא שגיאת השערוך (בדומה למשתנה השונות), ומבטא את השגיאה הנובעת מסופיות המדגם עקב כך שהפונקציה הנבחרת hD∗ אינה האופטימלית (מתוך H). זאת מכיוון שאנו מבצעים מינימיזציה של הסיכון האמפירי ולא של הסיכון האמיתי.
ככל שמחלקת ההשערות H עשירה (גדולה) יותר, אנו מצפים כי האיבר הראשון (איבר ההטיה) יקטן, והאיבר השני (איבר השונות) יגדל.
עושר המודל (H) צריך להיות כזה המוצא איזון אופטימאלי בין שני איברים אלה.
חסמים עבור מחלקת השערות סופית
נתמקד מעתה בבעית הסיווג הבינארי, כלומר בעיות סיווג עם פונקצית הפסד מסוג zero-one loss:
l(y^,y)=I{y^=y},Y={−1,+1}
מטרתנו למצוא חסמים על פונקציית הסיכון R(hD∗), כאשר hD∗ היא הפונקציה (ההשערה) המביאה למינימום את המחיר האמפירי R^D(h).
נשים לב כי במקרה הבינארי המחיר האמפירי איננו אלא השגיאה האמפירית (למה?).
ראשית נעסוק במקרה בו h0∈H, כלומר במקרה בו פונקציה המטרה h0 כלולה בתוך קבוצת ההשערות H.
כלומר:
R∗=h∈HminR(h)=0
משפט 1
נניח כי ∣H∣<∞ וכן h0∈H, כלומר R∗=0. אזי, השערה hD∗ הממזערת את הסיכון האמפירי מקיימת לכל ε>0
P(R(hD∗)>ε)<∣H∣e−εn
ניתן להגדיר את המשפט גם בצורה שקולה באמצעות "רווח סמך" (confidence interval).
רווח סמך הוא מושג מסטטסיטיקה. מושג זה מתאר, עבור פרמטר לא ידוע כלשהו, קטע שמחושב מתוך תוצאות המדגם, כך שהסיכוי שהקטע שנקבל יכלול את הפרמטר הוא קבוע, הקרוי רמת הסמך של הקטע. המשלים לרמת הסמך קרוי רמת המובהקות.
ניסוח מתמטי של רווח סמך הוא:
בהינתן מדגם D={x(i)} מהתפלגות Fθ הידועה למעט ערכו של הפרמטר θ, רווח סמך בעל רמת מובהקות α הוא קטע שקצוותיו מחושבים על פי המדגם כך שההסתברות של הפרמטר θ להיות בתוך קטע זה היא 1−α.
משפט 1 - בניסוח רווח סמך
על ידי השוואת אגף ימין ל-δ, כלומר בחירת ε=N1logδ∣H∣, ניתן לקבל את הצורה הבאה של המשפט, כאשר הפרמטר δ נקרא רווח הסמך:
לכל δ>0 מתקיים בהתסברות של (1−δ) לפחות R(hD∗)<N1logδ∣H∣
משפט 1 - ניסוח סיבוכיות המדגם
החסם שקיבלנו מאפשר לנו לבחור את גודל המדגם N המבטיח שגיאה קטנה כרצוננו, ובהתסברות גבוהה כרצוננו, אם N>ε1logδ∣H∣, נקבל כי R(hD∗) בהסתברות 1−δ לפחות.
משפט 1 - ניסוח חסם על התוחלת
ננסח בנוסף חסם עבור התוחלת.
עבור השערה hD∗ אי שלילית, התוחלת שלה, E[R(hD∗)], חסומה על ידי
E[R(hD∗)]<N1+log(∣H∣)=O(N1)
מספר מונחים בסיסיים בלמידה חישובית:
אלגוריתם כלשהו לבחירת hD∗∈H שעבורו P(R(hD∗)>ε)→0 כאשר N→∞ (לכל h0∈H) נקרא אלגוריתם Probably Approximately Correct או בקיצור PAC. קבוצת השערות H שעבורה קיים אלגוריתם PAC נקראת ברת-למידה (Learnable).
משפט 1 מראה כי האלגוריתם הממזער את השגיאה האמפירית הוא אלגוריתם PAC עבור כל קבוצת השערות סופית (ולפיכך כל קבוצת השערות סופית היא ברת למידה).
נעבור כעת למקרה הכללי יותר שבו פונקצית המטרה h0 אינה כלולה בהכרח בקבוצת ההשערות H, ולמעשה איננו מניחים הנחה כלשהי לגביה. במקרה זה R∗=0.
משפט 2
נניח כי ∣H∣<∞ ונסמן שוב R∗=h∈HminR(h). אזי, לכל ε>0
P(R(hD∗)>R∗+ε)<2∣H∣e−21ε2n
הערות:
ניתן לראות כי חסם זה חלש מהקודם, כיוון שקצה הדעיכה המעריכי של הסתברות הטעות הינו ε2
מהי סיבוכיות המדגם?
משפט 2 - בניסוח רווח סמך
ניסוח רווח סמך עבור משפט זה הוא - R(hD∗)<R∗+N2logδ2∣H∣ בהסתברות 1−δ לפחות. האיבר הראשון (R∗) מבטא את שגיאת הקירוב, אותה אי אפשר למזער, והשני את שגיאת השערוך.
משפט 2 - ניסוח חסם על התוחלת
ננסח בנוסף חסם עבור התוחלת.
עבור השערה hD∗ אי-שלילית, מתקים כי E[R(hD∗)]−R∗, חסומה על ידי
E[R(hD∗)]−R∗=O(Nlog∣H∣)
הוכחת המשפטים
על מנת להוכיח את המשפטים נגדיר את ההגדרות הבאות:
אוסף ההשערות ב-H העקביות עם הנתונים מוגדר להיות ה-version space. אוסף השערות זה מוגדר בצורה הבאה
VSH={hj∈H:R^D(h(j))=0,j=1,2,...,∣H∣}
עבור אלגוריתם ההמזער את השגיאה האמפירית ידוע כי מתקיים hD∗∈VSH.
אוסף ההשערות הרעות ב-H מוגדר בצורה הבאה:
B={hj∈H:R(h(j))>ϵ,j=1,2,...,∣H∣}
הערות:
שימו לב שההשערות העקביות מוגדרות ע"י השגיאה האמפירית, בעוד שההשערות הרעות מוגדרות ע"י השגיאה ה"אמיתית".
הקבוצה B אינה אקראית, כלומר אינה תלויה במדגם.
ככל שגודל המדגם גדל, הקבוצה VSH (התלויה במדגם) קטנה.
אנו מעוניינים להעריך את ההסתברות שקיימת השערה רעה שהיא עקבית, כלומר, h∈(VSH∩B).
בשביל ההוכחה נצטרך את חסם האיחוד (union bound) שהוא
P(∪i=1NAi)≤i=1∑NP(Ai)≤N1≤i≤NmaxP(Ai)
כאשר שוויון מתקיים אם המאורעות זרים.
הוכחת משפט 1
נתבונן בהשערה מסוימת hj כך שמתקיים
P(hj(x(i))=y(i)andhj∈B)<1−ε
נשים לב שההסתברות היא רק ביחס למשתנה האקראי x(i) כאשר אנו מגבילים את עצמנו ל-hj∈B שכן B היא קבוצה לא אקראית.
בגלל שהדגימות i.i.d מתקיים
P(hj∈(VSH∩B))<(1−ε)N
נגדיר את hj∈(VSH∩B) להיות המאורע Aj ונשתמש בחסם האיחוד כך שנקבל
P(∃hj∈(VSH∩B)≤∣B∣(1−ε)N)
הגודל של הקבוצה B אינו ידוע ולכן נרשום
P(∃hj∈(VSH∩B)≤∣H∣(1−ε)N)≤∣H∣e−εN
כאשר האי שוויון האחרון נובע מתוך 1−ε≤e−ε.
מ.ש.ל
הוכחת משפט 2
ראשית נזכר באי שייון צ'בישב
P(∣X−E[X]∣>ε)≤ε2Var[X]
אנו מעוניינים במקרה שבו X=N1∑i=1NZ(i) ו-{Z(i)}i=1N משתנים i.i.d. במקרה זה חסם צ'בישב הוא
אנו יכולים לפרש את האיבר השני כאיבר המודד את מורכבות מחלקת ההשערות – במקרה זה מורכבות נמדדת ע"ס גודל הקבוצה.
אבל חסם זה אינו תלוי בפילוג הדוגמאות, במדגם והוא ספציפי לאלגוריתם מזעור השגיאה האמפירית.
מקור עוצמתו הוא גם מקור חולשתו, שכן הוא מטפל במקרה הגרוע ביותר ואינו מנצלים את המבנה של בעיה נתונה. חסמים משופרים קיימים היום, אך קשים להוכחה במידה ניכרת. חסמים אלה הם מהצורה:
בהסתברות גדולה מ 1−δ , אלגוריתם נתון (לא בהכרח מזעור שגיאה אמפירית) הבוחר השערה hD∗ מקיים
R(hD∗)<R∗+Ω(hD∗,D,H)
כאשר Ω(hD∗,D,H) איבר מורכבות הדועך לאפס עבור n→∞.