תרגול 1 - חזרה על הסתברות וחיזוי

הקדמה

בתרגול הזה נעבור על המושגים הרלוונטיים בתורת ההסתברות ונדבר על חזאיים.

השימוש במודלים הסתבורתיים נפוץ בתחומים רבים ככלי לתיאור תהליכים ותופעות מסויימות. השימוש העיקרי במודלים אלו הוא לצורך חקירת התכונות של אותה תופעה ולצורך ביצוע חיזוי של משתנים מסויימים על סמך משתנים אחרים.

בתרגול זה, בתור דוגמא, נשתמש במודל הסתברותי אשר מתאר את התכונות של אנשים אשר מגיעים לקבל טיפול בבית חולים. בתור המשתנים האקראיים נגדיר דברים כגון הסימפוטים שאדם מסויים מדווח עליהם, הדופק שלו, לחץ הדם והמחלה/מחלות שמהם אותו אדם סובל. אנו נראה כיצד ניתן להשתמש במודל הסתברותי על מנת לתאר את הקשר בין אותם משתנים אקראיים. באופן כללי, בעזרת מודלים כאלה ניתן לנסות לחזות מהי ההסתברות שאדם חולה במחלה מסויימת בהינתן הסימפטומים והמדדים שלו.

בתרגול הקרוב אנו נעסוק במקרה שבו המודל ההסתברותי ידוע במלואו. זאת בשונה משאר כל שאר הקורס, שבו נעסוק במקרים שבהם המודל לא ידוע ונלמד כיצד ניתן להשתמש בשיטות חלופיות אשר מתבסות על אוסף של דגימות מתוך המודל כתחליף למודל עצמו.

מושגים בסיסיים בהסתברות

נתחיל בתזכורת קצרה למושגים הבסיסיים בתורת ההסתברות. נסתכל לשם כך על התופעה האקראית הבאה:

נניח ואנו לוקחים כוס מיץ, שופכים את תוכלתה על הרצפה ומסתכלים על הצורה של השלולית שנוצרה.

(חשוב לציין שזהו ניסוי מחשבתי ואין צורך לנסות את זה בבית).

התופעה המתוארת אשר יוצרת בסופו של דבר את השלולית היא תופעה אקראית, שכן ישנו מגוון רחב של תוצאות שיכולות להתקבל מהתהליך הזה. נגדיר בטבלה הבאה את המושגים ההסתברותיים הרלוונטיים הקשורים לתופעה הזו ואת הסימונים המוקובלים (בהם נעשה שימוש בקורס). מתחת לטבלה תמצאו שרטוט אשר ממחיש את הקשר בין המושגים האלו.

המושג סימון מקובל הגדרה בדוגמא שלנו
Random phenomenon
(תופעה אקראית)
-- תופעה בעלת תוצר אקראי. יצירת שלולית על הריצפה על ידי שפיכה של כוס מיץ
Sample
(דגימה)
ω\omega תוצר אפשרי של התופעה האקראית. צורת שלולית מסויימת
(לדוגמא שלושית בצורת ריבוע עם צלע באורך 10 ס"מ")
Sample space
(מרחב המדגם)
Ω\Omega המרחב המכיל את כל התוצרים האפשריים של התופעה. Ω={ω}\Omega=\lbrace\forall\omega\rbrace המרחב של כל צורות השלוליות הקיימות
Random Variables (RV)
(משתנה אקראי)
x(ω)\text{x}(\omega),y(ω)\text{y}(\omega),... פונקציה x:ΩR\text{x}:\Omega\rightarrow\mathbb{R} אשר משייכת לכל דגימה מספר. פונקציה אשר מחזירה את ההיקף של כל שלולית:
x1(ω)\text{x}_1(\omega)
פונקציה אשר מחזירה את השטח של כל שלולית:
x2(ω)\text{x}_2(\omega)
Event
(מאורע)
AA,BB,... אוסף של דגימות.
זאת אומרת, תת קבוצה של מרחב המדגם AΩA\subseteq\Omega.
הדרך הנוחה ביותר להגדיר מאורעות היא על ידי תנאי על משתנה אקראי כל שהוא.
אוסף כל השלוליות שהרדיוס שלהם קטן מ 2
A={ω:x1(ω)<2}A=\lbrace\omega: \text{x}_1(\omega)<2 \rbrace
אוסף כל השלושיות שהשטח שלהם גדול מ 1
B={ω:x2(ω)>1}B=\lbrace\omega: \text{x}_2(\omega)>1 \rbrace
Event space
(מרחב המאורעות)
F\mathcal{F} המרחב של כל המאורעות האפשריים שניתן להגדיר
AFA\in\mathcal{F}.
--
Probability measure
(הסתברות)
Pr(A)\text{Pr}(A) פונקציה Pr:F[0,1]\text{Pr}:\mathcal{F}\rightarrow[0,1] אשר ממפה
כל מאורע למספר בין 0 ו1 אשר מציין
את הסיכוי שאותו מאורע יתרחש
(זאת אומרת, הסיכוי שדגימה
תהיה שייכת למאורע).
Pr(A)=Pr(x1<2)=0.1\text{Pr}(A)=\text{Pr}(\text{x}_1<2)=0.1
Pr(x1<0)=Pr()=0\text{Pr}(\text{x}_1<0)=\text{Pr}(\emptyset)=0
Pr(0x1)=Pr(Ω)=1\text{Pr}(0\leq \text{x}_1)=\text{Pr}(\Omega)=1
Pr(AB)=Pr(x1<2 or x2>1)=0.6\text{Pr}(A\cup B)=\text{Pr}(\text{x}_1<2\ \text{or}\ \text{x}_2>1)=0.6
Pr(AB)=Pr(x1<2 and x2>1)=0.01\text{Pr}(A\cap B)=\text{Pr}(\text{x}_1<2\ \text{and}\ \text{x}_2>1)=0.01
Conditional probability measure
(הסתברות מותנית)
Pr(AB)\text{Pr}(A\lvert B) פונקציה Pr:F1×F2[0,1]\text{Pr}:\mathcal{F}_1\times\mathcal{F}_2\rightarrow[0,1]
אשר מחזירה את ההסתברות שמאורע
מסויים יקרה, תחת הידיעה שמאורע אחר קרה.
ההסתברות ששלולית תהיה בעלת היקף קטן מ 2 תחת הידיעה שהשטח שלה גדול מ 1:
Pr(AB)=Pr(x1<2x2>1)=0.02\text{Pr}(A\lvert B)=\text{Pr}(\text{x}_1<2\lvert \text{x}_2>1)=0.02

שתי הערות לגבי הסימונים:

  1. בחרנו לסמן את המשתנים הקראיים באותיות לטיניות קטנות לא מוטות (non-italic) בכדי להישאר צמודים לנוטציות של הספר Deep Learning (ראה תרגול או הרצאה קודמים). סימון מעט יותר נפוץ למשתנים אקראיים הוא אותיות לטיניות גדולות כגון XX ו YY. (אשר מתנגש הסימון של מטריצות).
  2. בכתב יד, נשתמש בקו עילי על מנת לסמן את המשתנים האקראיים (לדוגמא: xˉ\bar{x}, xˉ\bar{\boldsymbol{x}} או Xˉ\bar{X})
  3. בשתי השורות האחרונות השתמשנו בסימונים מהצורה x<2\text{x}<2 כקיצור ל {ω:x(ω)<2}\lbrace\omega:\text{x}(\omega)<2\rbrace. זוהי צורת כתיבה נפוצה ואנו נשתמש בה מכאן והלאה. (מבחינה מתמטית הסימון המקוצר חסר משמעות שכן הוא משווה בין פונקציה לבין מספר).

פונקציות של משתנים אקראיים:

כאשר אנו מפעילים פונקציה נוספת על המוצא של משתנה אקראי (לדוגמא, להעלות את רדיוס השלולית בריבוע) אנו למעשה מרכיבים שני פונקציות ויוצאים משתנה אקראי חדש.

Realizations (ראליזציות) ושיבוש נפוץ

מבחינת המינוח המדוייק, התוצאות שמתקבלות מהפעלה של המשתנים האקראיים, זאת אומרת המספרים שאנו מודדים בפועל, נקראים ריאלוזציות. בפועל, השימוש במושג זה לא מאד נפוץ ולרוב משתמשים בשם דגימות בכדי לתאר את הריאליזציות. לדוגמא: נתונות 20 דגימות של היקפים של שלוליות. בקורס זה, גם אנחנו נכנה את המדידות עצמם בשם דגימות.

סימונים

וקטורים אקראיים

לרוב יעניין אותנו לעבוד עם יותר ממשתנה אקראי יחיד. במקרה כזה נוח לאחד את כל המשתנים האקראיים לוקטור המכונה וקטור אקראי:

x=x(ω)=[x1(ω),x2(ω),,x3(ω)]\boldsymbol{x}=\mathbf{x}(\omega)=[\text{x}_1(\omega),\text{x}_2(\omega),\ldots,\text{x}_3(\omega)]^\top

(ניתן באופן דומה להגדיר גם מטריצות וטנזורים אקראיים)

דוגמא - מיון מקדים של חולים

נניח ואנו מעוניינים לעזור בפיתוח של מערכת למיון מקדים של חולים לצורך המשך טיפול, לשם כך אנו רוצים להסתמך על מודל הסתברותי אשר מתאר את המאפיינים של האנשים אשר משתמשים במערכת. אנו נגדיר בתור דגימה בודדת ω\omega משתמש יחיד (בעל מאפיינים מסויימים) אשר מגיע להשתמש במערכת.


רובוט של חברת temi הישראלית אשר יכול לסייע להכוונת חולים להמשך טיפול.

תרגיל 1.1: תרגיל חימום בהסתברות

1) בעבור המודל הנ"ל, תנו דוגמא/ות לגדלים הבאים:

  • 2 משתנים אקראיים דיסקרטים (בדידים)
  • 2 משתנים אקראיים רציפים.
  • 2 מאורעות.

2) המציאו הסתברויות למאורעות שבחרתם.

3) המציאו הסתברות לחיתוך (intersection) של שני המאורעות שבחרתם.

4) מה תהיה הסתברות של האיחוד (union) של המאורעות (על סמך סעיפים 2 ו 3)?

5) מה תהיה ההסתברות של החיסור של המאורע השני מהמאורע הראשון?

6) מה תהיה ההסתברות המותנית של המאורע הראשון בהינתן השני?

פתרון 1.1

1) דוגמאות:

  • משתנים אקראיים דיסקרטיים:

    • הדופק של המשתמש: p(ω)\text{p}(\omega)
    • כמות הפעמים שהמשתמש השתעל בשעה האחרונה: c(ω)\text{c}(\omega).
    • משתנה בולינאני (boolian) (בינארי) אשר מציין האם המשתמש חולה בשפעת (1 - חולה, 0 - לא): f(ω)\text{f}(\omega).
  • משתנים אקראיים רציפים:

    • החום של המשתמש במעלות: t(ω)\text{t}(\omega).
    • לחץ הדם (הסיטולי) של המשתמש: p(ω)\text{p}(\omega)
  • מאורעות:

    • החום של המשתמש גבוהה מ39°: t>39\text{t}>39
    • המשתמש חולה בשפעת: f=1\text{f}=1.

2) נניח שאלו הם ההסברויות המתאימים למאורעות שבחרנו:

Pr(t>39)=0.2\text{Pr}(\text{t}>39)=0.2

Pr(f=1)=0.1\text{Pr}(\text{f}=1)=0.1

3) נניח כי ההסתברות של החיתוך של שני המאורעות הינו: Pr(t>39f=1)=0.05\text{Pr}(\text{t}>39\cap\text{f}=1)=0.05

בכדי לענות על הסעיפים הבאים נשתמש בדיאגרמה הבאה (המכונה דיאגרמת Venn)

4) Pr(t>39f=1)=Pr(t>39)+Pr(f=1)Pr(t>39f=1)=0.2+0.10.05=0.25\text{Pr}(\text{t}>39\cup\text{f}=1)=\text{Pr}(\text{t}>39)+\text{Pr}(\text{f}=1)-\text{Pr}(\text{t}>39\cap\text{f}=1)=0.2+0.1-0.05=0.25

5) Pr((t>39)(f=1))=Pr(t>39)Pr(t>39f=1)=0.20.05=0.15\text{Pr}((\text{t}>39)-(\text{f}=1))=\text{Pr}(\text{t}>39)-\text{Pr}(\text{t}>39\cap\text{f}=1)=0.2-0.05=0.15

6) על פי הגדרה, ההסתברות המותנית של המאורע הראשון בהינתן המאורע השני שווה ל:

Pr(t>39f=1)=Pr(t>39f=1)Pr(f=1)=0.050.1=0.5 \text{Pr}(\text{t}>39\lvert \text{f}=1)=\frac{\text{Pr}(\text{t}>39\cap\text{f}=1)}{\text{Pr}(\text{f}=1)}=\frac{0.05}{0.1}=0.5

פונקציות פילוג (Distributions)

את ההסתברויות נוח לתאר בעזרת פונקציות פילוג. נרשום את ההגדרה של פונקציות הפילוג בעבור וקטורים אקראיים (פונקציות הפילוג של סקלרים הם כמובן מקרה פרטי של פונקציות אלו)

Cumulative Distribution Function - CDF (פונקציית הפילוג המצרפית)

סימון מקובל לפונקציית הCDF של וקטור אקראי x\mathbf{x} הוא Fx(x)F_{\mathbf{x}}(\boldsymbol{x}) והוא מוגדר באופן הבא:

Fx(x)=Pr(x1x1x2x2xnxn)F_{\mathbf{x}}(\boldsymbol{x})=\text{Pr}(\text{x}_1\leq x_1 \cap \text{x}_2\leq x_2 \ldots \cap \text{x}_n\leq x_n)

Probability Mass Function - PMF (פונקציית ההסתברות)

פונקציה המתארת את הפילוג של משתנים \ וקטורים אקראיים דיסקרטיים. סימון מקובל לPMF הוא fx(x)f_{\mathbf{x}}(\boldsymbol{x}) או px(x)p_{\mathbf{x}}(\boldsymbol{x}) והוא מוגדר באופן הבא:

px(x)=Pr(x=x1x2=x2xn=xn)p_{\mathbf{x}}(\boldsymbol{x})=\text{Pr}(\text{x}=x_1 \cap \text{x}_2=x_2 \ldots \cap \text{x}_n=x_n)

Probability Density Function - PDF (פונקציית צפיפות ההסתברות)

זו המקבילה של הPMF למקרה הרציף. גם היא מסומנת לרוב על ידי fx(x)f_{\mathbf{x}}(\boldsymbol{x}) או px(x)p_{\mathbf{x}}(\boldsymbol{x}).

במקרים בהם הCDF הוא גזיר, הPDF מוגדרת כ:

px(x)=x1x3xnFx(x)p_{\mathbf{x}}(\boldsymbol{x})=\frac{\partial}{\partial x_1}\frac{\partial}{\partial x_3}\ldots\frac{\partial}{\partial x_n}F_{\mathbf{x}}(\boldsymbol{x})

בשאר המקרים היא מוגדרת על ידי האינטגרל הבא:

Fx(x)=x1x2xnpx(x)dxndx2dx1F_{\mathbf{x}}(\boldsymbol{x})=\int_{-\infty}^{x_1}\int_{-\infty}^{x_2}\ldots\int_{-\infty}^{x_n}p_{\mathbf{x}}(\boldsymbol{x})dx_n\ldots dx_2 dx_1

פונקציות פילוג מותנות

באופן דומה, ניתן להגדיר גם את הגירסא המותנית של פונקציות הפילוג:

CDF

Fxy(xy)=Pr(x1x1x2x2xnxny=y)F_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \boldsymbol{y})=\text{Pr}(\text{x}_1\leq x_1\cap\text{x}_2\leq x_2 \ldots\cap\text{x}_n\leq x_n\lvert \mathbf{y}=\boldsymbol{y})

PMF

pxy(xy)=Pr(x1=x1x2=x2xn=xny=y)p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \boldsymbol{y})=\text{Pr}(\text{x}_1=x_1 \cap \text{x}_2=x_2 \ldots \cap \text{x}_n=x_n\lvert \mathbf{y}=\boldsymbol{y})

PDF

pxy(xy)=x1x3xnFX(xy)p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \boldsymbol{y})=\frac{\partial}{\partial x_1}\frac{\partial}{\partial x_3}\ldots\frac{\partial}{\partial x_n}F_{X}(\boldsymbol{x}\lvert \boldsymbol{y})

נוסחאות חשובות

The law of total probability (נוסחאת ההסתברות השלמה)

px(x)=y{y(ω),ωΩ}px,y(x,y)For discrete RV=px,y(x,y)dyFor cont. RVp_{\mathbf{x}}(\boldsymbol{x})=\underbrace{\sum_{\boldsymbol{y}\in\lbrace \mathbf{y}(\omega),\omega\in\Omega\rbrace}p_{\mathbf{x},\mathbf{y}}(\boldsymbol{x},\boldsymbol{y})}_{\text{For discrete RV}}=\underbrace{\int_{-\infty}^{\infty}p_{\mathbf{x},\mathbf{y}}(\boldsymbol{x},\boldsymbol{y})d\boldsymbol{y}}_{\text{For cont. RV}}

(הסכום על y{y(ω),ωΩ}\boldsymbol{y}\in\lbrace \mathbf{y}(\omega),\omega\in\Omega\rbrace הוא פשוט סכום על כל הערכים האפשריים שy\mathbf{y} יכול לקבל).

במקרים בהם עוסקים בכמה משתנים אקראיים, אך מעוניינים להתייחס רק לפלוג של חלק מהם, מכנים את הפילוג החלקי פילוג שולי (marginal distribution).

פילוג מותנה (Conditional Distribution)

הקשר הבא נובע ישירות מתוך ההגדרה של ההסברות המותנית:

pxy(xy)=px,y(x,y)py(y)p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \boldsymbol{y})=\frac{p_{\mathbf{x},\mathbf{y}}(\boldsymbol{x},\boldsymbol{y})}{p_{\mathbf{y}}(\boldsymbol{y})}

חוק בייס (Bayes' Theorem)

מתוך שני החוקים הנ"ל אפשר להסיק את חוק בייס:

pyx(yx)=pxy(xy)py(y)px(x)=pxy(xy)py(y)y~pxy(xy~)py(y~)For discrete RV=pxy(xy)py(y)pxy(xy~)py(y~)dy~For cont. RV\begin{aligned} p_{\mathbf{y}\lvert \mathbf{x}}(\boldsymbol{y}\lvert \boldsymbol{x}) &=\frac{p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \boldsymbol{y})p_{\mathbf{y}}(\boldsymbol{y})}{p_{\mathbf{x}}(\boldsymbol{x})}\\ &=\underbrace{\frac{p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \boldsymbol{y})p_{\mathbf{y}}(\boldsymbol{y})}{\sum_{\tilde{\boldsymbol{y}}} p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \tilde{\boldsymbol{y}})p_{\mathbf{y}}(\tilde{\boldsymbol{y}})}}_{\text{For discrete RV}}\\ &=\underbrace{\frac{p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \boldsymbol{y})p_{\mathbf{y}}(\boldsymbol{y})}{\int_{-\infty}^{\infty}p_{\mathbf{x}\lvert \mathbf{y}}(\boldsymbol{x}\lvert \tilde{\boldsymbol{y}})p_{\mathbf{y}}(\tilde{\boldsymbol{y}})d\tilde{\boldsymbol{y}}}}_{\text{For cont. RV}} \end{aligned}

תרגיל 1.2 - פילוגים בדידים

נתון לנו הפילוג המשותף הבא של הדופק p\text{p} ומספר השיעולים c\text{c} של המשתמשים במערכת.

לשם הפשטות נניח כי כמות השיעולים והדופק יכולים לקבל רק את הערכים המופעים בטבלה.

. c=0\text{c}=0 c=1\text{c}=1 c=2\text{c}=2 c=3\text{c}=3
p=50\text{p}=50 0 0.15 0.2 0.05
p=60\text{p}=60 0.08 0.03 ??? 0.04
p=70\text{p}=70 0.02 0.03 0.04 0.01
p=80\text{p}=80 0.1 0.05 0.05 0.1

1) מהו המספר החסר בטבלה?

2) מהי ההסתברות שדופק המנוחה של משתמש הוא 60 בהינתן שהוא לא השתעל בשעה האחרונה?

3) מהי ההסתברות ש10 חולים רצופים יהיה בעלי דופק גבוה או שווה ל 70?

פתרון 1.2

1)

נשתמש בעובדה שסכום כל הערכים בטבלה חייב להיות שווה ל 1, לכן המספר החסר חייב להיות:

pp,c(60,2)=1(p,c)(60,2)pp,c(p,c)=0.05p_{\text{p},\text{c}}(60,2) = 1 - \sum_{(p,c)\neq(60,2)} p_{\text{p},\text{c}}(p, c) = 0.05

2)

על פי ההגדרה של הפילוג המותנה:

ppc(600)=pp,c(60,0)pc(0)=pp,c(60,0)p=5080pp,c(p,0)=0.080+0.08+0.02+0.1=0.4p_{\text{p}\lvert \text{c}}(60\lvert 0) =\frac{p_{\text{p},\text{c}}(60,0)}{p_{\text{c}}(0)} =\frac{p_{\text{p},\text{c}}(60,0)}{\sum_{p=50}^{80} p_{\text{p},\text{c}}(p,0)}= \frac{0.08}{0+0.08+0.02+0.1} = 0.4

3)

מכיוון שהמאפיינים של המשתמשים הינם בלתי תלויים הסיכוי לקבל קומבינציה כל שהיא של מאורעות שווה למכפלת ההסתברויות של כל מאורע בנפרד. נתחיל בלחשב את ההסתברות שלמשתמש יחיד יהיה דופק גבוה או שווה ל70. לשם כך נחשב את הפילוג השולי של הדופק של משתמש, נעשה זאת בעזת נוחסאת ההסתברות השלמה:

pp(p)=cpp,c(p,c)={0.4p=500.2p=600.1p=700.3p=80p_{\text{p}}(p)=\sum_c p_{\text{p},\text{c}}(p,c)=\begin{cases} 0.4 & p=50 \\ 0.2 & p=60 \\ 0.1 & p=70 \\ 0.3 & p=80 \end{cases}

מכאן שההסתברות שלמשתמש יחיד יהיה דופק גבוה או שווה ל70 הינו Pr(p70)=0.1+0.3=0.4\text{Pr}(\text{p}\geq70)=0.1+0.3=0.4.

ההסתברות ש10 חולים רצופים יהיה בעלי דופק גבוה או שווה ל 70 שווה ל:

Pr(p170p270p1070)=Pr(p170)Pr(p270)Pr(p1070)=i=110Pr(pi70)=0.410104\begin{aligned} \text{Pr}(\text{p}_1\geq70\cap\text{p}_2\geq70\cap\ldots\cap\text{p}_{10}\geq70) &=\text{Pr}(\text{p}_1\geq70)\text{Pr}(\text{p}_2\geq70)\cdot\ldots\cdot\text{Pr}(\text{p}_{10}\geq70)\\ &=\prod_{i=1}^{10}\text{Pr}(\text{p}_i\geq70) =0.4^{10} \approx10^{-4} \end{aligned}

תרגיל 1.3 - פילוגים מעורבים

נסתכל כעת על הפילוג המשותף של הדופק p\text{p} וחום הגוף t\text{t} של המשתמש. נתון לנו כי הפילוג המותנה של חום הגוף בהינתן הדופק הינו:

tp=pN(32+0.1p,1)\text{t}\lvert \text{p}=p\quad\sim N(32+0.1\cdot p,1)

בהנתן שחום הגוף שמשתמש מסויים הינו 39°, מהו הפילוג השולי הצפוי של הדופק של אותו משתמש, ppt(p39)p_{\text{p}\lvert \text{t}}(p\lvert 39)?

פתרון 1.3

נשתמש בחוק בייס:

ppt(p39)=ptp(39p)pp(p)pt(39)=ptp(39p)pp(p)pt(39)p_{\text{p}\lvert \text{t}}(p\lvert 39) =\frac{p_{\text{t}\lvert \text{p}}(39\lvert p)p_{\text{p}}(p)}{p_{\text{t}}(39)} =\frac{p_{\text{t}\lvert \text{p}}(39\lvert p)p_{\text{p}}(p)}{p_{\text{t}}(39)}

נתחיל בחישוב של המונה ptp(39p)pp(p)p_{\text{t}\lvert \text{p}}(39\lvert p)p_{\text{p}}(p):

ptp(39p)pp(p)={12πexp(12(39320.150)2)0.4p=5012πexp(12(39320.160)2)0.2p=6012πexp(12(39320.170)2)0.1p=7012πexp(12(39320.180)2)0.3p=80={0.022p=500.048p=600.04p=700.072p=80\begin{aligned} p_{\text{t}\lvert \text{p}}(39\lvert p)p_{\text{p}}(p) & = \begin{cases} \frac{1}{\sqrt{2\pi}}\exp(-\tfrac{1}{2}(39-32-0.1\cdot 50)^2)\cdot0.4 & p=50 \\ \frac{1}{\sqrt{2\pi}}\exp(-\tfrac{1}{2}(39-32-0.1\cdot 60)^2)\cdot0.2 & p=60 \\ \frac{1}{\sqrt{2\pi}}\exp(-\tfrac{1}{2}(39-32-0.1\cdot 70)^2)\cdot0.1 & p=70 \\ \frac{1}{\sqrt{2\pi}}\exp(-\tfrac{1}{2}(39-32-0.1\cdot 80)^2)\cdot0.3 & p=80 \end{cases}\\ & = \begin{cases} 0.022 & p=50 \\ 0.048 & p=60 \\ 0.04 & p=70 \\ 0.072 & p=80 \end{cases}\\ \end{aligned}

את המכנה נוכל לחשב בקלות על ידי שימוש בעובדה ש pt(t)=p~ptp(tp~)pp(p~)p_{\text{t}}(t)=\sum_{\tilde{p}} p_{\text{t}\lvert \text{p}}(t\lvert \tilde{p})p_{\text{p}}(\tilde{p}) (נוסחאת ההסתברות השלמה), זאת אומרת שעלינו פשוט לסכום את התוצאות הנ"ל. התפקיד של המכנה הוא למעשה להיות קבוע נרמול (שאינו תלוי ב p\text{p}) אשר דואג לכך שסכום ההסתברויות השלויות על פני p\text{p} תהיה 1.

pt(39)=p~ptp(39p~)pp(p~)=0.182p_{\text{t}}(39)=\sum_{\tilde{p}} p_{\text{t}\lvert \text{p}}(39\lvert \tilde{p})p_{\text{p}}(\tilde{p})=0.182

מכאן ש:

ppt(p39)=10.182{0.022p=500.048p=600.04p=700.072p=80={0.12p=500.27p=600.22p=700.4p=80p_{\text{p}\lvert \text{t}}(p\lvert 39) =\frac{1}{0.182}\begin{cases} 0.022 & p=50 \\ 0.048 & p=60 \\ 0.04 & p=70 \\ 0.072 & p=80 \end{cases} =\begin{cases} 0.12 & p=50 \\ 0.27 & p=60 \\ 0.22 & p=70 \\ 0.4 & p=80 \end{cases}

תוחלות

נזכיר כעת את ההגדרות של התוחלת והשונות

תוחלת (Expectation Value / Mean)

התוחלת של וקטור אקראי x\mathbf{x} מוגדרת באופן הבא:

μx=E[x]=x{xω),ωΩ}xpx(x)For discrete RV=xpx(x)dxFor cont. RV\boldsymbol{\mu}_{\mathbf{x}}=\mathbb{E}[\mathbf{x}] =\underbrace{\sum_{\boldsymbol{x}\in\lbrace \mathbf{x}\omega),\omega\in\Omega\rbrace} \boldsymbol{x}\cdot p_{\mathbf{x}}(\boldsymbol{x})}_{\text{For discrete RV}} =\underbrace{\int_{-\infty}^\infty \boldsymbol{x}\cdot p_{\mathbf{x}}(\boldsymbol{x})d\boldsymbol{x}}_{\text{For cont. RV}}

כאשר אינטרגל או סכימה על וקטור מתבצעים איבר איבר (זאת אומרת לכל איבר בנפרד).

הגדרה זו תופסת גם לכל פונקציה של המשתנים / וקטורים האקראיים:

E[f(x)]=f(x)px(x)dx\mathbb{E}\left[f(\mathbf{x})\right] =\int_{-\infty}^\infty f(\boldsymbol{x})\cdot p_{\mathbf{x}}(\boldsymbol{x})d\boldsymbol{x}

השונות (Variance)

השונות של משתנה אקראי (סקלרי) x\text{x} מוגדרת באופן הבא:

σx2=var(x)=E[(xμx)2]=E[x2]μx2\sigma_{\text{x}}^2=\text{var}(\text{x})=\mathbb{E}\left[(\text{x}-\mu_{\text{x}})^2\right]=\mathbb{E}\left[\text{x}^2\right]-\mu_{\text{x}}^2

כאשר השורש של השונות, σx\sigma_{\text{x}}, מכונה סטיית התקן (standard deviation - STD) של x\text{x}.

Covariance

הconariance של זוג משתנים אקראיים (סקלריים) x1\text{x}_1 ו x2\text{x}_2 מגדר באופן הבא:

cov(x1,x2)=E[(x1μx1)(x2μx2)]=E[x1x2]μx1μx2\text{cov}(\text{x}_1,\text{x}_2)=\mathbb{E}\left[(\text{x}_1-\mu_{\text{x}_1})(\text{x}_2-\mu_{\text{x}_2})\right]=\mathbb{E}\left[\text{x}_1\text{x}_2\right]-\mu_{\text{x}_1}\mu_{\text{x}_2}

מטריצת הCovariance

בעבור וקטור אקראי x\mathbf{x} מגדירים את מטריצת הconvariance כאשר האיבר הi,ji,j של המטריצה הוא הcovariance בין xi\text{x}_i ל xj\text{x}_j. מקובל לסמן מטריצה זו באות Σ\Sigma:

Σx,i,j=cov(xi,xj)\Sigma_{\mathbf{x},i,j}=\text{cov}\left(\text{x}_i,\text{x}_j\right)

ניתן להראות כי את מטריצת הcovariance ניתן לכתוב גם כ:

Σx=E[xx]μxμx\Sigma_{\mathbf{x}}=\mathbb{E}\left[\mathbf{x}\mathbf{x}^\top\right]-\boldsymbol{\mu}_{\mathbf{x}}\boldsymbol{\mu}_{\mathbf{x}}^\top

וקטורים גאוסיים (Gaussian Vectors) -
Multivariate Normal Distribution

בדומה למקרה החד מימדי, הפילוג הגאוסי ממשיך לשחק תפקיד מרכזי גם כאשר מגדילים את מספר המימדים. ההרחבה של הפילוג הגאוסי למספר מימדים נקרא פילוג multivariate normal distribution. וקטורים שמפולגים על פי פילוג זה מכונים וקטורים גאוסיים. בדומה למקרה החד מימדי, הפילוג הזה מוגדר על ידי וקטור התוחלות שלו μx\boldsymbol{\mu}_{\mathbf{x}} ומטריצת הcovariance שלו Σx\Sigma_{\mathbf{x}}:

px(x)=1(2π)nΣxexp(12(xμx)TΣx1(xμx))p_{\mathbf{x}}(\boldsymbol{x})=\frac{1}{(\sqrt{2\pi)^n\lvert \Sigma_{\mathbf{x}}\lvert }}\exp\left(-\tfrac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{\mathbf{x}}\right)^T\Sigma_{\mathbf{x}}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{\mathbf{x}}\right)\right)

כאשר nn הוא מספר המימדים (האורך של הוקטור הגאוסי).

תנאי הכרחי ומספיק בשביל שוקטור אקראי יהיה גאוסי, הינו שכל כקומבינציה לינארית של איברי הוקטור יהיו בעלי פילוג גאוסי (סקלארי).

חזאיים (Predictions)

בפעולת החיזוי אנו מנסים לחזות את ערכו של משתנה אקראי כל שהוא, לרוב על סמך משתנים אקראיים אחרים. מקובל לסמן חזאים בעזרת ^, למשל, את החזאי של המשתנה האקראי x\text{x} נסמן ב x^\hat{x}.

נקח בתור דוגמא את הנסיון לחזות מהו הדופק של משתמש מסויים על סמך חום הגוף שלו. ראינו קודם כיצד ניתן לחשב את הפילוג של הדופק בהינתן הטמפרטורה, קיבלנו את הפילוג המותנה הבא:

ppt(p39)={0.12p=500.27p=600.22p=700.4p=80p_{\text{p}\lvert \text{t}}(p\lvert 39) =\begin{cases} 0.12 & p=50 \\ 0.27 & p=60 \\ 0.22 & p=70 \\ 0.4 & p=80 \end{cases}

נשאלת השאלה אם כן מהו החזאי האופטימאלי של הדופק של המשתמש בהינתן שחום הגוף שלו היא 39°? לשם כך עלינו להגדיר קודם למה אנו מתכוונים ב"חזאי אופטימאלי". מסתבר שאין תשובה אחת לשאלה הזו. נסתכל על כמה אופציות להגדיר חזאי שכזה:

אופציה ראשונה: נניח שהמטרה שלנו היא להגדיל את ההסתברות שהחזאי שלנו יחזה את הדופק במדוייק. במקרה כזה כדאי לנו לבחור את החזאי p^=80\hat{p}=80, שכן זוהי האופציה בעלת ההסתברות הכי גבוהה להתקבל.

אופציה שניה נניח שהמטרה שלנו היא לדאוג שהשגיאה הממוצעת (הערך המוחלט של ההפרש בין החיזוי לדופק האמיתי) תהיה כמה שיותר קטנה. במקרה כזה כדאי לנו לבחור את החזאי p^=70\hat{p}=70, אשר יניב שגיאה ממוצעת של 9.

אופציה שלישית נניח והמטרה שלנו היא דווקא למזער את הטעות המקסימאלית. במקרה כזה כדאי לנו לבחור את מרכז התחום שהוא p^=65\hat{p}=65 (אשר יבטיח לנו שגיאה מירבית של 15).

כפי שניתן לראות, הבחירה של החזאי האופטימאלי תלויה במטרה אותה אנו רוצים להשיג. נראה כעת כיצד ניתן להגדיר את המטרה כבעיית אופטימיזציה שהחזאי האופטימאלי הוא הפתרון שלה.

פונקציית המחיר (Cost Function)

ראשית נגדיר פונקציה המכונה פונקציית המחיר (cost function). פונקציה זו מקבל חזאי ומחזירה את הציון של החזאי. לרוב הציון מוגדר כך שציון נמוך יותר הוא טוב יותר. לדוגמא, פונקציית המחיר הבאה מחזירה את השגיאת החיזוי הממוצעת של הדופק:

C(p^)=E[pp^  t=39]C(\hat{p})=\mathbb{E}\left[\lvert \text{p}-\hat{p}\lvert \ \lvert\ t=39\right]

בהינתן פונקציית מחיר שכזו, ניתן לרשום את החזאי האופטימאלי כחזאי אשר ממזער את פונקציית המחיר:

p^=argminp^C(p^)\hat{p}^*=\underset{\hat{p}}{\arg\min}\quad C(\hat{p})

פונקציית הסיכון (Risk Function) וההפסד (Loss)

דרך נפוצה להגדיר פונקציות מחיר הינה כתוחלת על מרחק כל שהוא בין תוצאת החיזוי לערך האמיתי של המשתנה האקראי (כמו בדוגמא למעלה). במקרים כאלה מקובל לקרוא לפונקציית המחיר פונקציית סיכון (risk function) ולפונקציית המרחק (שעליה מבצעים את התוחלת) פונקציית ההפסד (loss function). סימונים מקובלים לפונקציות ההפסד ופונקציית הסיכון הינם \ell ו RR בהתאמה, כאשר:

R(p^)=E[(p^,p)]R(\hat{p})=\mathbb{E}\left[\ell(\hat{p},\text{p})\right]

הטבלה הבאה מציגה את שלושת פונקציות הסיכון וההפסד הנפוצות ביותר:

המשמעות פונקציית ההפסד השם של
פונקציית ההפסד
השם של
פונקציית הסיכון
ההסתברות לעשות טעות (x,x^)=I{x^x}\ell\left(x,\hat{x}\right)=I\left\lbrace\hat{x}\neq x\right\rbrace Zero-one loss Misclassification rate
השגיאה הממוצעת (x,x^)=x^x\ell\left(x,\hat{x}\right)=\left\lvert\hat{x}-x\right\rvert l1l_1 MAE (mean absolute error)
השיגאה הריבועית הממוצעת (x,x^)=(x^x)2\ell\left(x,\hat{x}\right)=\left(\hat{x}-x\right)^2 l2l_2 MSE (mean squared error)
  • הסימון I{}I\{\cdot\} מציין פונקציית אינדיקטור (אשר שווה ל1 כאשר התנאי שבסוגריים מתקיים ו0 אחרת).
  • במקרים רבים משתשמים גם בשורש השגיאה הריבועית הממוצעת RMSE כפונקציית סיכון. מבחינת מעשית, אין הבדל בין השתיים שכן בעיית האופטימיזציה המתקבל היא שקולה (בגלל המונוטוניות של פונקציית השורש). זאת אומרת שלMSE וRMSE יש את אותו החזאי האופטימאלי.
  • פונקציית הסיכון הראשונה הינה הנפוצה ביותר למקרים בהם מנסים לחזות משתנה אקראי דיסקרטי.
  • פונקציית הסיכון האחרונה הינה הנפוצה ביותר למקרים בהם מנסים לחזות משתנה אקראי רציף.

תרגיל 1.4 - החזאים האופטימאלים של פונקציות הסיכון הנפוצות

1) בעבור משתנה אקראי דיסקרטי x\text{x}, עם misclassification rate כפונקציית סיכון, הראו כי החזאי האופטימאלי הינו הערך הסביר ביותר:

x^=argminx^E[I{x^x}]=argmaxx^px(x^)\hat{x}^* =\underset{\hat{x}}{\arg\min}\quad \mathbb{E}\left[I\{\hat{x}\neq\text{x}\}\right] =\underset{\hat{x}}{\arg\max}\quad p_{\text{x}}\left(\hat{x}\right)

2) בעבור משתנה אקראי רציף x\text{x} עם MAE כפונקציית סיכון, הראו כי החזאי האופטימאלי הינו הmedian:

x^=argminx^E[xx^]Fx(x^)=12\begin{aligned} &\hat{x}^* =\underset{\hat{x}}{\arg\min}\quad \mathbb{E}\left[\lvert \text{x}-\hat{x}\lvert \right]\\ &\Rightarrow F_{\text{x}}\left(\hat{x}^*\right)=\tfrac{1}{2} \end{aligned}

(בעבור המקרה הבדיד, ראו דוגמא בתרגיל 1.5)

3) בעבור MSE (או RMSE) כפונקציית סיכון, הראו כי החזאי האופטימאלי הינו התוחלת:

x^=argminx^E[(xx^)2]=E[x]\hat{x}^* =\underset{\hat{x}}{\arg\min}\quad \mathbb{E}\left[(\text{x}-\hat{x})^2\right] =\mathbb{E}\left[\text{x}\right]

פתרון 1.4

1)

x^=argminx^E[I{x^x}]\hat{x}^*=\underset{\hat{x}}{\arg\min}\quad \mathbb{E}\left[I\{\hat{x}\neq \text{x}\}\right]

נרשום את התוחלת באופן מפורש:

=argminx^xI{x^x}px(x)=\underset{\hat{x}}{\arg\min}\quad \sum_xI\{\hat{x}\neq x\}p_{\text{x}}(x)

הסכימה פה היא למעשה על כל הערכים של x\text{x} מלבד x^\hat{x}. נוכל לרשום את הסכום הזה כסכום על כל הערכים פחות הערך בx^\hat{x}:

=argminx^(xpx(x))=1px(x^)=argmaxx^pX(x^)\begin{aligned} &=\underset{\hat{x}}{\arg\min}\quad \underbrace{\left(\sum_x p_{\text{x}}(x)\right)}_{=1} - p_{\text{x}}(\hat{x}) \\ & = \underset{\hat{x}}{\arg\max}\quad p_X\left(\hat{x}\right) \end{aligned}

2)

x^=argminx^E[xx^]=argminx^xx^px(x)dx\begin{aligned} \hat{x}^* &=\underset{\hat{x}}{\arg\min}\quad \mathbb{E}\left[\lvert \text{x}-\hat{x}\lvert \right] \\ &=\underset{\hat{x}}{\arg\min}\int_{-\infty}^{\infty}\lvert x-\hat{x}\lvert p_{\text{x}}(x)dx \\ \end{aligned}

את בעיית האופטימיזציה הזו ניתן לפתור על ידי גזירה (לפי x^\hat{x}) והשוואה ל-0:

ddx^x^xpx(x)dx=0ddx^x^xpx(x)dx=0sign(x^x)px(x)dx=0(x^px(x)dx)=Fx(x^)(x^px(x)dx)=1Fx(x^)=02Fx(x^)=1Fx(x^)=12\begin{aligned} &\frac{d}{d\hat{x}}\int_{-\infty}^{\infty}\lvert \hat{x}-x\lvert p_{\text{x}}(x)dx = 0 \\ \Leftrightarrow&\int_{-\infty}^{\infty}\frac{d}{d\hat{x}}\lvert \hat{x}-x\lvert p_{\text{x}}(x)dx = 0 \\ \Leftrightarrow&\int_{-\infty}^{\infty}\text{sign}(\hat{x}-x)p_{\text{x}}(x)dx = 0 \\ \Leftrightarrow& \underbrace{\left(\int_{-\infty}^{\hat{x}}p_{\text{x}}(x)dx\right)} _{=F_{\text{x}}(\hat{x})}- \underbrace{\left(\int_{\hat{x}}^{\infty}p_{\text{x}}(x)dx\right)} _{=1 - F_{\text{x}}(\hat{x})} =0 \\ \Leftrightarrow& 2F_{\text{x}}(\hat{x}) = 1 \\ \Leftrightarrow& F_{\text{x}}(\hat{x}) = \tfrac{1}{2} \\ \end{aligned}

3)

x^=argminx^E[(xx^)2]\hat{x}^* =\underset{\hat{x}}{\arg\min}\quad \mathbb{E}\left[(\text{x}-\hat{x})^2\right]

גם כאן ניתן לפתור את בעיית האופטימיזציה על ידי גזירה (לפי x^\hat{x}) והשוואה ל-0:

ddx^E[(xx^)2]=0E[ddx^(xx^)2]=0E[2(x^x)]=02x^E[1]=12E[x]=0x^=E[x]\begin{aligned} &\frac{d}{d\hat{x}}\mathbb{E}\left[(\text{x}-\hat{x})^2\right]=0 \\ \Leftrightarrow&\mathbb{E}\left[\frac{d}{d\hat{x}}(\text{x}-\hat{x})^2\right]=0 \\ \Leftrightarrow&\mathbb{E}\left[2(\hat{x}-\text{x})\right]=0 \\ \Leftrightarrow& 2\hat{x}\underbrace{\mathbb{E}\left[1\right]}_{=1}- 2\mathbb{E}\left[\text{x}\right]=0 \\ \Leftrightarrow&\hat{x} = \mathbb{E}\left[x\right] \end{aligned}

תרגיל 1.5 - חיזוי הדופק על פי חום הגוף

השתמשו בתוצאות הסעיף הקודם על מנת לקבוע בעבור כל אחד מ3 פונקציות הסיכון הנפוצות מהטבלה מהו החזאי האופטימאלי של הדופק של המשתמש בהינתן שחום הגוף שלו הינו 39°.

פתרון 1.5

ppt(p39)={0.12p=500.27p=600.22p=700.4p=80p_{\text{p}\lvert \text{t}}(p\lvert 39) =\begin{cases} 0.12 & p=50 \\ 0.27 & p=60 \\ 0.22 & p=70 \\ 0.4 & p=80 \end{cases}
  • בעבור misclasification rate החזאי האופטימאלי הוא הערך הסביר ביותר:
p^=argmaxp^ppt(p^39)=80\hat{p}^*=\underset{\hat{p}}{\arg\max}\quad p_{\text{p}\lvert \text{t}} (\hat{p}\lvert 39)=80
  • בעבור MAE:

    מכיוון שמדובר במשתנה אקראי דיסקרטי לא קיים לו median. במקרה החזאי האופטימאלי הוא המספר אשר ההסתברות לקבל ערך גדול ממנו וההסתברות לקבל ערך קטן ממנו, שניהם קטנים מ-0.5.

    בדוגמא שלנו המספר הזה הוא p^=70\hat{p}=70. (עם הסתברות של 0.390.39 לקבל ערך קטן ממנו והסתברות של 0.40.4 לקבל ערך קטן ממנו)

  • בעבור MSE (או RMSE) החזאי האופטימאלי הינו התוחלת:

    p^=E[pt=39]=500.12+600.27+700.22+800.4=68.96\hat{p}^*=\mathbb{E}\left[\text{p}\lvert \text{t}=39\right]=50\cdot0.12 + 60\cdot0.27 + 70\cdot0.22 + 80\cdot0.4=68.96