Labels (תויות / תגיות):
y - המשתנה האקראי שאותו אנו מנסים לחזות. (לרוב סקלר)
Observations \ measurements (תצפיות או מדידיות):
x - הוקטור האקראי אשר שעלפיו נרצה לבצע את החיזוי. (לרוב וקטור)
המדגם יהיה מורכב מדגימות של הזוג x ו y:
D={x(i),y(i)}i=1Nכאשר N הוא מספר הדגימות שבמדגם.
אנו תמיד נניח כי הדגימות נוצרו כולם מאותו הפילוג באופן בלתי תלוי אחת בשניה.
זאת אומרת שבעבור זוג אינדקסים i=j הדגימה {x(i),y(i)} הינה בלתי תלויה סטטיסטית בדגימה {x(j),y(j)}.
מוקבל לחלק את הבעיות ב supervised learning לשני תתי תחומים:
הבעיה של חיזוי משך הנסיעה
המטרה שלנו הינה להשתמש ב D על מנת למצוא חזאי y^=h(x) אשר יהיה כמה שיותר מוצלח תחת קריטריון שאותו נצטרך להגדיר.
נפוצה בבעיות classification.
נפוצה בבעיות regression.
בנוסף קיים גם root mean squared error (RMSE).
גם כן נפוצה בבעיות regression.
-פונקציית הסיכון מוגדרת על ידי תוחלת על פני הפילוג של המשתנים האקראיים בבעיה שהוא כאמור לא ידוע.
מדגם
▼
פילוג על סמך המדגם
▼
חזאי אופטימאלי בהינתן הפילוג
מדגם
️▼
חזאי בעל ביצועים טובים על המדגם
הסיכון האמפירי מוגדר על ידי החלפת התוחלת בפונקציית הסיכון בגרסא האמפירית שלה.
אנו נשתמש בסימון E^D על מנת לסמן את תחולת האמפירית המבוססת על המדגם נתון D.
E[f(x)]≈E^D[f(x)]=N1i=1∑Nf(x(i))כאשר מספר הדגימות N הולך לאין סוף התוחלת האמפירית מתכנסת לתוחלת האמיתית במובן הסתברותי.
הסיכון האמפירי המקבל הינו:
R(h)=E[l(h(x),y)]≈R^(h)=N1i=1∑N[l(h(x(i)),y(i))]השימוש בגרסא האמפירית של פונקציית המחיר היא במקרים רבים בעייתית והיא גורמת בין היתר לתופעה המוכנה overfitting (התאמת יתר).
בשלב זה אנו נתעלם מבעיה זו ואנו נעסוק בה בהרחבה בהרצאה הבאה.
למה hD∗ לא h∗?
נרצה להגביל את החזאי שלנו למשפחה מצומצמת של פונקציות. נעשה זאת על ידי שימוש במודל פרמטרי.
מוטיבציה:
מודל פרמטרי מגדיר את המבנה הכללי של הפונקציות במשפחה עד כדי מספר סופי של פרמטרים אשר חופשיים להשתנות.
לדוגמא:
h(x;θ)=log(θ3x2)θ13x1+x4θ2ניתן כעת לרשום את בעיית האופטימיזציה כאופטימיזציה על הפרמטרים (במקום על h):
θ∗=θargminC(h(⋅;θ))או במקרה של ERM:
θD∗=θargminN1i=1∑N[l(h(xi;θ),yi)]מודל מהצורה:
h(x;θ)=θ1x1+θ2x2+⋯+θDxDאו בצורה וקטורית:
h(x;θ)=x⊤θניתן להוסיף למודל גם איבר bias:
h(x;θ)=θ1+x⊤[θ2,θ3,…,θD+1]⊤בכדי לשמור על הכתיב הוקטורי נפריד את איבר ה bias משאר הפרמטרים:
h(x;θ,θ0)=θ0+x⊤θלרוב נסמן אותו בעזרת b או θ0.
נראה בהמשך דרך נוחה יותר להוספת איבר ההיסט בעזרת שינוי של הוקטור x.
MSE + מודל לינארי + ERM:
בעיית הLLS נפוצה מאד ומופיעה בתחומים רבים.
אחת התכונות הנחמדות ביותר של LLS הוא העובדה שניתן לפתור את הבעיית האופטימיזציה שלו באופן אנליטי.
נגדיר את הוקטור והמטריצה הבאים:
וקטור התגיות:
y=[y(1),y(2),⋯,y(N)]⊤מטריצת המדידות:
X=⎣⎢⎢⎢⎢⎡−−−x(1)x(2)⋮x(N)−−−⎦⎥⎥⎥⎥⎤בעזרת הגדרות אלו, ניתן לרשום את בעיית האופטימיזציה של LLS באופן הבא:
θD∗=θargminN1i=0∑N(x(i)⊤θ−y(i))2=θargminN1∥Xθ−y∥22בבעיית האופטימיזציה הזו ניתן להגיע לפתרון סגור על ידי גזירה והשוואה ל-0:
∇θ(N1∥Xθ−y∥22)=0 ⇒θ=(X⊤X)−1X⊤y(את הפיתוח תראו בתרגול 3)
פתרון זה נכון רק כאשר המטריצה X⊤X הפיכה. (בשבוע הבא נדבר על הנושא של רגולריזציה אשר יכול לעזור, בין היתר, במקרים שבהם המטריצה לא הפיכה).
נשתמש במודל:
h(x;θ)=θxונפתור בעזרת LLS.
בעבור מקרה זה, נקבל ש: X=[x(1),x(2),…,x(N)]⊤.
נחשב את θ על ידי:
θD∗=(X⊤X)−1X⊤yהתוצאה המקבלת הינה:
נרצה להשתמש במודל מהצורה:
h(x;θ)=θ1+θ2xבעיה: הפתרון הסגור של LLS לא מתייחס למודל זה (עם bias).
פתרון: ננסח מחדש את הבעיה כך שיתקבל מודל ללא איבר היסט.
פעולת החיזוי תהיה:
y^=h(Φ(x);θ)את המוצא של הפונקציה Φ מקובל לכנות וקטור המאפיינים (features). השימוש במאפיינים מאפשר דברים כגון:
החלפת האופן שבו המידע מיוצג. לדוגמא:
אנו נשתמש לפעמים בסימון הבא:
Φ(x)=[φ1(x),φ2(x),…,φM(x)]⊤כאן Φ הוא וקטור של פונקציות, כאשר כל פונקציה φi אחראית על ייצור של איבר אחד בוקטור xnew:
xnew,i=φi(x)על ידי שילוב של מודל לינארי עם מאפיינים נוכל לקבל חזאים מהצורה:
y^=h(x;θ)=hlinear(Φ(x);θ)=Φ(x)⊤θ=θ1φ1(x)+θ2φ2(x)+⋯+θMφM(x)זאת אומרת מודל שהוא קומבינציה לינארית של פונקציות של x.
שימו לב: המודל נקרא מודל לינארי משום שהוא לינארי בפרמטרים שהם הנעלמים בבעיה (ולא ב x)
נוסיף כעת איבר היסט למודל שלנו לשיערוך זמן הנסיעה.
נעשה זאת על ידי שימוש במאפיינים הבאים:
φ1(x)=1,φ2(x)=xכל דגימה x תהפוך לוקטור xnew=[1,x]⊤ ומודל החיזוי שלנו יהיה:
h(x;θ)=θ1+θ2xמטריצת המדידות X תהיה כעת:
X=⎣⎢⎢⎢⎢⎡11⋮1x(1)x(2)⋮x(N)⎦⎥⎥⎥⎥⎤הצבה של מטריצה זו בנוחסא ל θD∗ נותנת את המודל הלינארי הבא:
באותו אופן ניתן להשתמש במאפיינים בכדי לייצג מגוון רחב של פונקציות מורכבות יותר כגון פולינומים, כפי שיודגם בתרגול 3.