הרצאה 6 - SVM ושיטות גרעין

מה נלמד היום

סיווג לינארי

בפרק זה נעסוק בבעיית סיווג בינארי. לשם הנוחות נסמן את שתי המחלקות ב y=±1\text{y}=\pm1. בפרט נעסוק בסוג מסויים של מסווגים מהצורה:

h(x)=sign(wx+b)={1wx+b>01elseh(\boldsymbol{x})= \text{sign}(\boldsymbol{w}^{\top}\boldsymbol{x}+b) =\begin{cases} 1 & \boldsymbol{w}^{\top}\boldsymbol{x}+b>0\\ -1 & \text{else} \end{cases}

עם w\boldsymbol{w} ן bb כל שהם. מסווגים אלו מכוונים מסווגים לינאריים. מסווגים מסוג זה מתקבלים לדוגמא בעבור LDA או linear logistic regression. מסווגים אלו מחלקים את המרחב לשני חלקים אשר נמצאים משני צידיו של על-מישור (hyperplane) המוגדר על ידי המשוואה wx+b=0\boldsymbol{w}^{\top}\boldsymbol{x}+b=0 המכונה מישור ההפרדה.

על-מישור הוא הרחבה של מושג המישור למימדים שונים מ2. במרחב ממימד DD על המישור יהיה ממימד D1D-1. לדוגמא, במימד אחד על-המישור הוא נקודה, בדו מימד על-המישור הוא קו ובתלת מימד על-המישור הוא מישור דו מימדי. לשם הפשטות, בקורס זה נשתמש בשם מישור גם כדי להתייחס לעל-מישורים.

שימו לב: חושב לא להתבלבל בין המשוואה wx+b=0\boldsymbol{w}^{\top}\boldsymbol{x}+b=0 לבין המשוואה ax+b=yax+b=y אשר מגדירה משוואה לינארית במרחב של xx ו yy. שני הצורות האלה אומנם קרובות אך הם לא אותה משוואה וגם האיבר החופשי, שבשניהם מסומן לרוב ב bb הוא לא אותו bb.

פרידות לינארית (linear separability)

בהרצאה זו אנו נתייחס לשני מקרים, הראשון בו קיים מישור מפריד אשר מסווג את המדגם בצורה מושלמת (בלי טעויות סיווג) ושני בו לא ניתן למצוא מישור כזה. על מדגמים מהסוג הראשון נאמר שהם פרידים לינארית. להלן דוגמאות לשני סוגי המדגמים:

חשוב לציין שחלוקה זו לשני סוגי המדגמים רלוונטית רק לדיון התיאורטי, שכן לרוב לא נוכל לדעת מראש אם מדגם הוא פריד לינארית או לא.

למדגם פריד לינארית יהיה תמיד יותר ממשטח הפרדה אחד אשר יכול לסווג בצורה מושלמת את המדגם. לא נוכיח זאת, אך נראה דוגמא לכך על המדגם הבא:

בחלקה הראשון של הרצאה זו נסתכל על המקרה של מדגם פריד לינארית ונציג את אלגוריתם ה hard SVM אשר מנסה לבחור בצורה חכמה את מישור ההפרדה הטוב ביותר. בחלקה השני של ההצראה נציג את אלגוריתם ה soft SVM אשר מרחיב את האלגוריתם גם למקרה שבו המדגם אינו פריד לינארית.

תזכורת - גאומטריה של המישור

לפני שנציג את אלגוריתם ה SVM נתעכב לרגע על המשוואת המישור wx+b=0\boldsymbol{w}^{\top}\boldsymbol{x}+b=0 כדי לקבל קצת אינטואיציה לגבי התפקיד של w\boldsymbol{w} ו bb במשוואה זו.

נתחיל מלהסתכל על גרסא פשוטה יותר של משוואת המישור שבה אין איבר היסט (איבר חופשי) bb ו w\boldsymbol{w} הוא וקטור יחידה w^\hat{\boldsymbol{w}}. ספציפית, נסתכל על הפונקציה f(x)=w^xf(\boldsymbol{x})=\hat{\boldsymbol{w}}^{\top}\boldsymbol{x}. משוואה זו מטילה נקודות במרחב על המישור המוגדר על ידי w^\hat{\boldsymbol{w}} ומודד את המרחק של הטלה זו.

פונקציה זו למעשה מודדת את המרחק dd של הנקודה כל שהיא x\boldsymbol{x} מהמישור של w^x\hat{\boldsymbol{w}}^{\top}\boldsymbol{x} בתוספת של סימן אשר מציין את הצד של המישור בו נמצאת הנקודה. בחצי המרחב שעליו מצביע הוקטור w^\hat{\boldsymbol{w}} הפונקציה חיובית והיא שלילית בחצי השני.

נשתמש בשם signed distance (מרחק מסומן) כדי להתייחס לשילוב של המרחק מהמישור בתוספת הסימן המתאים לצד של המישור.

כעת נחליף את הוקטור w^\hat{\boldsymbol{w}} בוקטור w\boldsymbol{w} כל שהוא (שאינו וקטור יחידה). נקבל את הפונקציה f(x)=wxf(\boldsymbol{x})=\boldsymbol{w}^{\top}\boldsymbol{x} שזהה לפונקציה הקודמת רק מוכפלת ב w2\lVert\boldsymbol{w}\rVert_2 (נורמת l2l_2 של w\boldsymbol{w}. בחלק מהמקרים נשמיט את ה 22 ונרשום רק w\lVert\boldsymbol{w}\rVert):

במקרה זה ה signed distance של נקודה כל שהיא x0\boldsymbol{x}_0 מהמישור יהיה d=1wwx0d=\frac{1}{\lVert\boldsymbol{w}\rVert}\boldsymbol{w}^{\top}\boldsymbol{x}_0.

כאשר נוסיף לפונקציה גם איבר היסט bb נקבל את הפונקציה f(x)=wx+bf(\boldsymbol{x})=\boldsymbol{w}^{\top}\boldsymbol{x}+b. ההוספה של הקבוע למעשה שקולה להזזה של נקודת ה-0 שממנה מודדים את ההטלה בכיוון ההפוך ל w\boldsymbol{w}. המרחק שבו צריך להזיז את האפס לאורך הקו הינו bw\frac{b}{\lVert\boldsymbol{w}\rVert}.

כאן ה signed distance של נקודה כל שהיא x0\boldsymbol{x}_0 ממישור wx+b=0\boldsymbol{w}^{\top}\boldsymbol{x}+b=0 הינו:

d=1w(wx0+b)d=\frac{1}{\lVert\boldsymbol{w}\rVert}(\boldsymbol{w}^{\top}\boldsymbol{x}_0+b)

נסכם את כל הנאמר לעיל בשרטוט הבא:

אינווריאנטיות לכפל בסקלר

תכונה נוספת של על-מישורים הינה שהם אינווריאנטים (לא משתנים) תחת כפל בסקלר. זאת אומרת שאם נכפיל את גם את w\boldsymbol{w} וגם את bb בקבוע כל שהוא α\alpha שונה מאפס לא נשנה את מיקומו של המישור במרחב, זאת משום ש:

(αw)x+(αb)=0wx+b=0\begin{aligned} (\alpha\boldsymbol{w})^{\top}\boldsymbol{x}+(\alpha b)&=0\\ \Leftrightarrow\boldsymbol{w}^{\top}\boldsymbol{x}+b&=0 \end{aligned}

המשמעות של אינווריאנטיות זו הינה שיש מספר דרכים להגדיר את אותו המסווג הלינארי. לעובדה זו תהיה משמעות כאשר ננסה לרשום את בעיית האופטימיזציה שנרצה לפתור על מנת למצוא את מישור ההפרדה הטוב ביותר.

Support Vector Machine (SVM)

SVM הוא אלגוריתם דיסקרימינטיבי לסיווג בינארי אשר מחפש מסווג לינארי אשר יסווג בצורה טובה את המדגם. לאגוריתם זה יש שני גרסאות hard SVM אשר מחפש מסווג לינארי טוב לסיווג מדגם שהוא פריד לינארית, ו soft SVM אשר מרחיב את האלגוריתם למקרה שבו המדגם לא פריד לינארית. נתחיל בלהציג את hard SVM.

Hard SVM

כפי שציינו קודם, במקרה שבו המדגם הינו פריד לינארית ישנו יותר ממישור הפרדה אחד אשר מסווג את המדגם באופן מושלם. נרצה למצוא מישור הפרדה אשר יכליל בצורה טובה גם לנקודות מחוץ למדגם. הנחה סבירה הינה שהפילוג הצפוי של הנקודות יתרכז באופן גס סביב הנקודת מהמדגם.

תחת היגיון זה hard SVM מנסה למצוא מישור הפרדה אשר יהיה רחוק ככל האפשר מהנקודות שבמדגם, או באופן יותר מדוייק, נרצה שהמרחק מהמישור לנקודה הקרובה אליו ביותר יהיה מקסימאלי. נגריר זאת באופן מתימטי.

נסתכל על המכפלה בין המרחקים המסומנים של הנקודות לתוויות שלהם: 1w(wx(i)+b)y(i)\frac{1}{\lVert\boldsymbol{w}\rVert}(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}. כדי לקבל סיווג מושלם נרצה שכל המכפלות האלה יהיו חיוביות. ב Hard SVM, בנוסף לניסיון לגרום לכל המכפלות להיות חיוביות, ננסה למקסם את המינימום של מכפלות אלו. דרישה זו תנסה להרחיק כמה שאפשר את הנקודות מהמישור.

בעיית האופטימיזציה שנרצה לפתור אם כן הינה:

w,b=argmaxw,bmini{1w(wx(i)+b)y(i)}\boldsymbol{w}^*,b^*=\underset{\boldsymbol{w},b}{\arg\max}\quad \underset{i}{\min}\left\{\frac{1}{\lVert\boldsymbol{w}\rVert}(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}

באופן כללי ניתן לנסות לפתור בעיה זו באופן ישיר על ידי אלגוריתם כמו gradient descent. בפועל העובדה שבבעיה מופיע minmin על כל המדגם מאד מקשה לממש פתרון שיתכנס בזמן סביר. למזלנו ניתן לפשט את הבעיה ולמצוא בעיה שקולה, שאותה נכנה הבעיה הפרימאלית, שאותה שניתן יהיה לפתור באופן יעיל בשיטות נומריות אחרות.

הפיתוח של הבעיה הפרימאלית

כפי שציינו קודם המשוואת המישור היא אינווריאנטית לכפל בקבוע. זאת אומרת שבבעיית האופטימיזציה נוכל לבחור באופן שרירותי קבוע כפלי להכפיל בו את w\boldsymbol{w} ו bb מבלי לפגוע במרחב של המסווגים שמתוכם אנו מחפשים את הפתרון. בפרט נוכל להוסיף דרישה ש:

mini{(wx(i)+b)y(i)}=1\underset{i}{\min}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}=1

אם נוסיף את האילץ הזה לבעיית האופטימיזציה נקבל:

w,b=argmaxw,bmini{1w(wx(i)+b)y(i)}s.t.mini{(wx(i)+b)y(i)}=1=argmaxw,bmini1w{(wx(i)+b)y(i)}s.t.mini{(wx(i)+b)y(i)}=1=argmaxw,b1ws.t.mini{(wx(i)+b)y(i)}=1=argminw,b12w2s.t.mini{(wx(i)+b)y(i)}=1\begin{aligned} \boldsymbol{w}^*,b^* =\underset{\boldsymbol{w},b}{\arg\max}\quad&\underset{i}{\min}\left\{\frac{1}{\lVert\boldsymbol{w}\rVert}(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}\\ \text{s.t.}\quad&\underset{i}{\min}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}=1\\ =\underset{\boldsymbol{w},b}{\arg\max}\quad&\underset{i}{\min}\frac{1}{\lVert\boldsymbol{w}\rVert}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}\\ \text{s.t.}\quad&\underset{i}{\min}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}=1\\ =\underset{\boldsymbol{w},b}{\arg\max}\quad&\frac{1}{\lVert\boldsymbol{w}\rVert}\\ \text{s.t.}\quad&\underset{i}{\min}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}=1\\ =\underset{\boldsymbol{w},b}{\arg\min}\quad&\frac{1}{2}\lVert\boldsymbol{w}\rVert^2\\ \text{s.t.}\quad&\underset{i}{\min}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}=1 \end{aligned}

נוכל לפשט אף יותר את בעיית האופטימיזציה על ידי כך שנחליף את האילוץ של mini{(wx(i)+b)y(i)}=1\underset{i}{\min}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}=1 באילוץ:

(wx(i)+b)y(i)1i(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\geq1\quad\forall i

מכיוון שבעיית האופטימיזציה מנסה להקטין את הגודל של w\boldsymbol{w} מובטח שלפחות עבור אחת מהדגימות במדגם האילוץ יתקיים בשיוון (אחרת אז ניתן להקטין עוד את w\boldsymbol{w} ו bb ובכך להקטין את ה objective), דבר אשר יגרור שיתקיים ש mini{(wx(i)+b)y(i)}=1\underset{i}{\min}\left\{(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\right\}=1. אם כן, בעיית האופטימיזציה הבאה שקולה לבעיה שמימנה התחלנו:

w,b=argminw,b12w2s.t.(wx(i)+b)y(i)1i\begin{aligned} \boldsymbol{w}^*,b^* =\underset{\boldsymbol{w},b}{\arg\min}\quad&\frac{1}{2}\lVert\boldsymbol{w}\rVert^2\\ \text{s.t.}\quad&(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b)y^{(i)}\geq1\quad\forall i \end{aligned}

הבעיה החדשה שקיבלנו נקראת הבעיה הפרימאלית ויש לה צורה מאד מיוחדת המוכנה quadratic programming problem והיה ניתנת לפתרון בשיטות נומריות מאד יעילות אותם לא נכסה בקורס זה. ניתן כעת פרשנות אינטואיטיבית לבעיה הפרימאלית.

פרשנות

האילוץ בבעיית האופטימיזציה שקיבלנו דורשת שבעבור w\boldsymbol{w} ו bb כל שהם כל הנקודות במדגם יהיו מסווגות בצורה נכונה ועליהם להימצא מחוץ לתחום של:

1wx+b11\geq\boldsymbol{w}^{\top}\boldsymbol{x}+b\geq-1

תחום זה אשר נמצא בין שני המישורים:

wx+b=1\boldsymbol{w}^{\top}\boldsymbol{x}+b=1

ו

wx+b=1\boldsymbol{w}^{\top}\boldsymbol{x}+b=-1

נקרא השוליים (margin) של המסווג ותפקידו להרחיק את הנקדות של המדגם ממישור ההפרדה.

המרחק בין מישור ההפרדה לשפה של ה margin שווה ל 1w\frac{1}{\lVert\boldsymbol{w}\rVert} והרוחב הכולל של ה margin הינו 2w\frac{2}{\lVert\boldsymbol{w}\rVert}. בעיית האופטימיזציה, שמנסה למזער את w\lVert\boldsymbol{w}\rVert, תחת האילוץ תתכנס לפרמטרים של המסווג בעל ה margin הגדול ביותר אשר מקיים תנאי זה.

Support Vectors

משום ש SVM מנסה להרחיק את הנקדות הקרובות ביותר למישור נקבל שלרוב רק חלק קטן מאד של הנקודות ישפיעו על הבחירה של מישור ההפרדה. לדוגמא, נקודות שכנראה לא ישפיעו על מישור ההפרדה הם כאלה שנמצאות רחוק מהאיזור של התפר בין שני המחלקות. בפועל הנקודות היחידות אשר ישפיעו על התוצאה של בעיית האופטימיזציה הן הנקודות שבסופו של דבר ישבו על השפה של ה margin. נקודות אלו מקיימות y(i)(wx(i)+b)=1y^{(i)}\left(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b\right)=1 והן מכוונות support vectors. שהסרה או הזזה אינפיטסימאלית של נקודות שאינם support vectors לא תשפיע על הפתרון של בעיית האופטימיזציה.

הבעיה הדואלית

נציג כעת דרך שקולה נוספת לרישום של בעיית האופטימיזציה אשר מכונה הבעיה הדואלית. בעיה זו לפעמים נוחה יותר לשימוש והיא גם תשרת אותנו בהמשך כאשר נציג את שיטת הגרעין. המעבר מהבעיה הפרימאלית נעשה על ידי שיטה המכונה תנאי Karush-Kuhn-Tucker אשר גם אותה לא נציג בקורס זה. נציג אבל את בעיית האופטימיזציה עצמה. הסבר מפורט יותר על אופטימיזציה של בעיות קמורות בהקשר של SVM והמעבר לבעיה הדואלית ניתן למצוא בנספח בנושא באתר המודל של הקרוס.

בבעיה זו נגדיר NN משתני עזר נוספים {αi}i=1N\{\alpha_i\}_{i=1}^N. בעזרת משתנים אלו ניתן לרשום את הבעיה הדואלית באופן הבא:

{αi}=argmax{αi}iαi12i,jy(i)y(j)αiαjx(i)x(j)s.t.αi0iiαiy(i)=0\begin{aligned} \left\lbrace\alpha_i\right\rbrace^* =\underset{\left\lbrace\alpha_i\right\rbrace}{\arg\max}\quad&\sum_i\alpha_i-\frac{1}{2}\sum_{i,j}y^{(i)}y^{(j)}\alpha_i\alpha_j\boldsymbol{x}^{(i)\top}\boldsymbol{x}^{(j)} \\ \text{s.t.}\quad &\alpha_i\geq0\quad\forall i\\ &\sum_i\alpha_iy^{(i)}=0 \end{aligned}

מתוך המשתנים {αi}i=1N\{\alpha_i\}_{i=1}^N ניתן לשחזר את w\boldsymbol{w} אופן הבא:

w=iαiy(i)x(i)\boldsymbol{w}=\sum_i\alpha_iy^{(i)}\boldsymbol{x}^{(i)}

ישנו קשר בין הערכים של αi\alpha_i לנקודות שהם support vectors. בפרט, בעבור נקודות שאינם support vectors יתקיים ש αi=0\alpha_i=0. (בנוסף, במרבית המקרים, אם כי לא תמיד, בעבור נקודות שהם כן support vectors יתקיים ש αi>0\alpha_i>0).

נסכם זאת בטבלה הבאה:

. . .
נקודות רחוקות מה margin y(i)(wx(i)+b)>1y^{(i)}\left(\boldsymbol{w}^{\top}x^{(i)}+b\right)>1 αi=0\alpha_i=0
נקודות על ה margin (שהם support vectors) y(i)(wx(i)+b)=1y^{(i)}\left(\boldsymbol{w}^{\top}x^{(i)}+b\right)=1 αi0\alpha_i\geq0

על מנת לחשב את הפרמטר bb של המישור נוכל לבחור נקודה מסויימת שבעבור ה αi>0\alpha_i>0. נקודה כזו בהכרח תהיה support vectors ולכן היא תקיים y(i)(wx(i)+b)=1y^{(i)}\left(\boldsymbol{w}^{\top}x^{(i)}+b\right)=1, מתוך משוואה זו ניתן לחלץ את bb.

Soft SVM

Soft SVM מתייחס למקרה שבו המדגם אינו פריד לינארית. במקרה זה עדיין מגדירים את השוליים בצורה דומה אך מאפשרים לנקודות המדגם להיכנס לתוך השוליים ואף לחצות אותם לצד הלא נכון של מישור ההפרדה. על כל חריגה כזו משלמים קנס בפונקציית המטרה שאותו מנסים למזער. את החריגה של הדגימה ה ii נסמן ב 1wξi\frac{1}{\lVert\boldsymbol{w}\rVert}\xi_i. לנקודות שהם בצד הנכון של המישור ומחוץ ל margin xiixi_i יהיה 0.

המשתנים ξi\xi_i נקראים slack variables ובעיית האופטימיזציה הפרימאלית תהיה

w,b,{ξi}=argminw,b,{ξi}12w2+Ci=1Nξis.t.y(i)(wx(i)+b)1ξiiξi0i\begin{aligned} \boldsymbol{w}^*,b^*,\{\xi_i\}^*= \underset{\boldsymbol{w},b,\{\xi_i\}}{\arg\min}\quad&\frac{1}{2}\left\lVert\boldsymbol{w}\right\rVert^2+C\sum_{i=1}^N\xi_i \\ \text{s.t.}\quad &y^{(i)}\left(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b\right)\geq1-\xi_i\quad\forall i\\ &\xi_i\geq0\quad\forall i \end{aligned}

כאשר CC הוא היפר-פרמטר אשר קובע את גודל הקנס בפונקציית המחיר על כל חריגה.

הבעיה הדואלית הינה:

{αi}=argmax{αi}iαi12i,jy(i)y(j)αiαjx(i)x(j)s.t.0αiCiiαiy(i)=0\begin{aligned} \left\lbrace\alpha_i\right\rbrace^* =\underset{\left\lbrace\alpha_i\right\rbrace}{\arg\max}\quad&\sum_i\alpha_i-\frac{1}{2}\sum_{i,j}y^{(i)}y^{(j)}\alpha_i\alpha_j\boldsymbol{x}^{(i)\top}\boldsymbol{x}^{(j)} \\ \text{s.t.}\quad &0\leq\alpha_i\leq C\quad\forall i\\ &\sum_i\alpha_iy^{(i)}=0 \end{aligned}

ה support vectors מוגדרים להיות הנקודות שמקיימות y(i)(wx(i)+b)=1ξiy^{(i)}\left(\boldsymbol{w}^{\top}\boldsymbol{x}^{(i)}+b\right)=1-\xi_i

תכונות:

. . .
נקודות שמסווגות נכון ורחוקות מה margin y(i)(wx(i)+b)>1y^{(i)}\left(\boldsymbol{w}^{\top}x^{(i)}+b\right)>1 αi=0\alpha_i=0
נקודות על ה margin (שהם support vectors) y(i)(wx(i)+b)=1y^{(i)}\left(\boldsymbol{w}^{\top}x^{(i)}+b\right)=1 0αiC0\leq\alpha_i\leq C
נקודות שחורגות מה margin (גם support vectors) y(i)(wx(i)+b)=1ξiy^{(i)}\left(\boldsymbol{w}^{\top}x^{(i)}+b\right)=1-\xi_i αi=C\alpha_i=C

כאשר המקרה האחרון כולל נקודות המסווגות נכון ולא נכון.

פונקציות גרעין

מאפיינים: תזכורת

נוכל תמיד להחליף את וקטור המשתנים x\boldsymbol{x} שעליו פועל האלגוריתם בוקטור חדש xnew=Φ(x)\boldsymbol{x}_{\text{new}}=\Phi(\boldsymbol{x}), כאשר Φ\Phi היא פונקציה אשר נבחרה מראש ונקראת פונקציית המאפיינים שכן היא מחלצת מאפיינים רלוונטים מתוך x\boldsymbol{x} שבהם נשתמש. אם הממד של Φ\Phi מספיק גבוה, ניתן תמיד להגיע להפרדה לינארית במרחב הרב-ממדי (דורש הוכחה).

פונקציות גרעין

במקרים רבים החישוב של Φ(x)\Phi(\boldsymbol{x}) יכול להיות מסובך אך קיימת דרך לחשב בצורה יעילה את הפונקציה K(x1,x2)=Φ(x1)Φ(x2)K(\boldsymbol{x}_1,\boldsymbol{x}_2)=\Phi(\boldsymbol{x}_1)^{\top}\Phi(\boldsymbol{x}_2) אשר נקראת פונקציית גרעין. יתרה מזאת, ייתכנו מצבים שבהם וקטור המאפיינים הוא אינסופי ועדיין פונקציית הגרעין היא פשוטה לחישוב.

ישנם קריטריונים תחתם פונקציה מסויימת K(x1,x2)K(\boldsymbol{x}_1,\boldsymbol{x}_2) היא פונקציית גרעין בעבור וקטור מאפיינים מסויים. בקורס זה לא נכנס לתאים אלו. נציג שתי פונקציות גרעין נפוצות:

  • גרעין גאוסי: K(x1,x2)=exp(x1x2222σ2)K(\boldsymbol{x}_1,\boldsymbol{x}_2)=\exp\left(-\frac{\lVert\boldsymbol{x}_1-\boldsymbol{x}_2\rVert_2^2}{2\sigma^2}\right) כאשר σ\sigma פרמטר שיש לקבוע.
  • גרעין פולינומיאלי: K(x1,x2)=(1+x1x2)pK(\boldsymbol{x}_1,\boldsymbol{x}_2)=(1+\boldsymbol{x}_1^{\top}\boldsymbol{x}_2)^p כאשר p1p\geq1 פרמטר שיש לקבוע.

פונקציית המאפיינים שמתאימות לגרעינים אלו הם מסורבלות לכתיבה ולא נציג אותם כאן.

Kernel Trick in SVM

הרעיון ב kernel trick הינו לעשות שימוש בפונקציית הגרעין על מנת להשתמש ב SVM עם מאפיינים מבלי לחשב את Φ\Phi באופן ישיר. בעבור פונקציית מאפיינים Φ\Phi עם פונקציית גרעין KK הבעיה הדואלית של SVM הינה:

{αi}=argmax{αi}iαi12i,jy(i)y(j)αiαjK(x(i),x(j))s.t.αi0iiαiy(i)=0\begin{aligned} \left\lbrace\alpha_i\right\rbrace^* =\underset{\left\lbrace\alpha_i\right\rbrace}{\arg\max}\quad&\sum_i\alpha_i-\frac{1}{2}\sum_{i,j}y^{(i)}y^{(j)}\alpha_i\alpha_jK(\boldsymbol{x}^{(i)},\boldsymbol{x}^{(j)}) \\ \text{s.t.}\quad &\alpha_i\geq0\quad\forall i\\ &\sum_i\alpha_iy^{(i)}=0 \end{aligned}

בעיית אופטימיזציה זו מגדירה את המשתנים {αi}\{\alpha_i\} בלי צורך לחשב את Φ\Phi באופן מפורש בשום שלב.

הפרמטר w\boldsymbol{w} נתון על ידי:

w=iαiy(i)Φ(x(i))\boldsymbol{w}=\sum_i\alpha_iy^{(i)}\Phi(\boldsymbol{x}^{(i)})

כדי לחשב את w\boldsymbol{w} באופן מפורש יש לחשב את Φ\Phi, אך ניתן להמנע מכך עם מציבים את הנוסחא ל w\boldsymbol{w} ישירות לתוך המסווג:

כדי להמנע מהחישוב של Φ\Phi גם במסווג נשתמש בעובדה ש:

h(x)=sign(wΦ(x)+b)=sign(iαiy(i)Φ(x(i))Φ(x)+b)=sign(iαiy(i)K(x(i),x)+b)\begin{aligned} h(\boldsymbol{x}) &=\text{sign}(\boldsymbol{w}^{\top}\Phi(\boldsymbol{x})+b)\\ &=\text{sign}(\sum_i\alpha_iy^{(i)}\Phi(\boldsymbol{x}^{(i)})^{\top}\Phi(\boldsymbol{x})+b)\\ &=\text{sign}(\sum_i\alpha_iy^{(i)}K(\boldsymbol{x}^{(i)},\boldsymbol{x})+b)\\ \end{aligned}

כך שגם בשלב החיזוי ניתן להשתמש בפונקציית הגרעין בלי לחשב את Φ\Phi באופן מפורש.