התנאי θ ≥ x ( i ) \theta\geq x^{(i)} θ ≥ x ( i ) לכל i i i שקול ל θ ≥ max i { x ( i ) } \theta\geq\max_i\{x^{(i)}\} θ ≥ max i { x ( i ) } . מצד אחד נרצה לקיים תנאי זה בכדי שה likelihood לא יתאפס, מצד שני נרצה ש θ \theta θ יהיה כמה שיותר קטן בכדי למקסם את 1 / θ N 1/\theta^N 1 / θ N . לכן,
θ ^ MLE = max i { x ( i ) } \hat{\theta}_{\text{MLE}} = \max_i\{x^{(i)}\} θ ^ MLE = i max { x ( i ) }
3)
המודל של פונקציית ה PDF יהיה:
p ( x ; θ ) ) = θ exp ( − θ x ) p(x;\boldsymbol{\theta}))=\theta\exp(-\theta x) p ( x ; θ ) ) = θ exp ( − θ x )
משערך ה MLE נתון על ידי:
θ ^ MLE = arg min θ − ∑ i = 1 N log ( p ( x ( i ) ; θ ) ) = arg min θ − N log ( θ ) + θ ∑ i = 1 N x ( i ) \begin{aligned}
\hat{\boldsymbol{\theta}}_{\text{MLE}}
& = \underset{\boldsymbol{\theta}}{\arg\min}\ -\sum_{i=1}^N\log\left(p(x^{(i)};\boldsymbol{\theta})\right) \\
& = \underset{\boldsymbol{\theta}}{\arg\min}\ -N\log(\theta)+\theta\sum_{i=1}^N x^{(i)}
\end{aligned} θ ^ MLE = θ arg min − i = 1 ∑ N log ( p ( x ( i ) ; θ ) ) = θ arg min − N log ( θ ) + θ i = 1 ∑ N x ( i )
נפתור על ידי גזירה והשוואה ל 0 (נסמן ב f ( θ ) f(\theta) f ( θ ) את פונקציית המטרה אותה יש למזער):
∂ ∂ θ f ( θ ) = 0 ⇔ − N θ + ∑ i = 1 N x ( i ) = 0 ⇔ θ = 1 1 N ∑ i = 1 N x ( i ) \begin{aligned}
& \frac{\partial}{\partial\theta}f(\theta)=0 \\
\Leftrightarrow & -\frac{N}{\theta}+\sum_{i=1}^N x^{(i)}=0 \\
\Leftrightarrow & \theta=\frac{1}{\frac{1}{N}\sum_{i=1}^N x^{(i)}} \\
\end{aligned} ⇔ ⇔ ∂ θ ∂ f ( θ ) = 0 − θ N + i = 1 ∑ N x ( i ) = 0 θ = N 1 ∑ i = 1 N x ( i ) 1
מכאן ש:
θ ^ MLE = 1 1 N ∑ i = 1 N x ( i ) \hat{\theta}_{\text{MLE}} = \frac{1}{\frac{1}{N}\sum_{i=1}^N x^{(i)}} θ ^ MLE = N 1 ∑ i = 1 N x ( i ) 1
תרגיל 8.2 - MAP
ביום טוב, עומרי כספי קולע בהסתברות p p p מהקו. ביום רע, הוא קולע בהסתברות q q q מהקו. α \alpha α מהימים הם ימים טובים עבור עומרי.
ביום מסויים זרק עומרי N N N זריקות וקלע m m m מתוכם. מאמנו של עומרי צריך לזהות האם מדובר ביום טוב או רע של השחקן (ולהשאיר אותו או להחליף אותו בהתאמה).
מהו חוק ההחלטה אשר ממקסם את סיכויי המאמן לצדוק?
הניחו כי בהינתן המידע של האם יום מסויים הוא טוב או לא, ההסברות לקלוע זריקות שונות הינה הסתברות בלתי תלויה.
פתרון 8.2
x ( i ) \text{x}^{(i)} x ( i ) - משתנה אקראי בינארי של האם עומרי קלע בזריקה ה i i i . (0-החטיא, 1-קלע)
y \text{y} y - משתנה אקראי בינארי של האם היום הינו יום טוב. (0-יום לא טוב, 1-יום טוב).
על פי הנתונים בשאלה:
p x ∣ y ( x ∣ 0 ) = { 1 − q x = 0 q x = 1 p_{\text{x}|\text{y}}(x|0)=\begin{cases}
1-q & x=0 \\
q & x=1
\end{cases} p x ∣ y ( x ∣ 0 ) = { 1 − q q x = 0 x = 1
p x ∣ y ( x ∣ 1 ) = { 1 − p x = 0 p x = 1 p_{\text{x}|\text{y}}(x|1)=\begin{cases}
1-p & x=0 \\
p & x=1
\end{cases} p x ∣ y ( x ∣ 1 ) = { 1 − p p x = 0 x = 1
p y ( y ) = { 1 − α y = 0 α y = 1 p_{\text{y}}(y)=\begin{cases}
1-\alpha & y=0 \\
\alpha & y=1
\end{cases} p y ( y ) = { 1 − α α y = 0 y = 1
בכדי למקסם את הסיכוי לחזות האם היום הוא יום טוב בהינתן המדגם נרצה למצוא איזה ערך יותר סביר בהינתן המדגם (יום טוב או רע).
במילים אחרות אנו רוצים את ה y \text{y} y הכי סביר בהינתן D = { x ( i ) } \mathcal{D}=\{x^{(i)}\} D = { x ( i ) }
y ^ = arg max y p y ∣ D ( y ∣ D ) \hat{y}=\underset{y}{\arg\max}\ p_{\text{y}|\mathcal{D}}(y|\mathcal{D}) y ^ = y arg max p y ∣ D ( y ∣ D )
זוהי למעשה בעיית MAP קלאסית, כאשר y \text{y} y משמש למעשה כפרמטר בפילוג של x ∣ y \text{x}|\text{y} x ∣ y .
בכדי לשמור על אחידות עם הסימונים שהגדרנו קודם לבעיות שיערוך נסמן את y \text{y} y ב θ \theta θ .
θ ^ = arg max θ p θ ∣ D ( θ ∣ D ) = arg max θ p D ∣ θ ( D ∣ θ ) p θ ( θ ) = arg max θ p θ ( θ ) ∏ i p x ∣ θ ( x i ∣ θ ) \hat{\theta}
=\underset{\theta}{\arg\max}\ p_{\theta|\mathcal{D}}(\theta|\mathcal{D})
=\underset{\theta}{\arg\max}\ p_{\mathcal{D}|\theta}(\mathcal{D}|\theta)p_{\theta}(\theta)
=\underset{\theta}{\arg\max}\ p_{\theta}(\theta)\prod_i p_{\text{x}|\theta}(x^{i}|\theta) θ ^ = θ arg max p θ ∣ D ( θ ∣ D ) = θ arg max p D ∣ θ ( D ∣ θ ) p θ ( θ ) = θ arg max p θ ( θ ) i ∏ p x ∣ θ ( x i ∣ θ )
מכיוון ש θ \theta θ יכול לקבל רק שני ערכים נוכל לבדוק את שניהם ולקבוע מי מהם סביר יותר.
בעבור θ = 0 \theta=0 θ = 0 נקבל:
p θ ( 0 ) ∏ i p x ∣ θ ( x ( i ) ∣ 0 ) = ( 1 − α ) q m ( 1 − q ) N − m p_{\theta}(0)\prod_i p_{\text{x}|\theta}(x^{(i)}|0)
=(1-\alpha)q^m\left(1-q\right)^{N-m} p θ ( 0 ) i ∏ p x ∣ θ ( x ( i ) ∣ 0 ) = ( 1 − α ) q m ( 1 − q ) N − m
בעבור θ = 1 \theta=1 θ = 1 נקבל:
p θ ( 1 ) ∏ i p x ∣ θ ( x ( i ) ∣ 1 ) = α p m ( 1 − p ) N − m p_{\theta}(1)\prod_i p_{\text{x}|\theta}(x^{(i)}|1)
=\alpha p^m\left(1-p\right)^{N-m} p θ ( 1 ) i ∏ p x ∣ θ ( x ( i ) ∣ 1 ) = α p m ( 1 − p ) N − m
לכן החיזוי האופטימאלי יהיה:
θ ^ = { 0 ( 1 − α ) q m ( 1 − q ) N − m > α p m ( 1 − p ) N − m 1 otherwise = { 0 1 − α α ( q p ) m ( 1 − q 1 − p ) N − m > 1 1 otherwise \begin{aligned}
\hat{\theta}
& = \begin{cases}
0 & (1-\alpha)q^m\left(1-q\right)^{N-m} > \alpha p^m\left(1-p\right)^{N-m} \\
1 & \text{otherwise}
\end{cases} \\
& = \begin{cases}
0 & \frac{1-\alpha}{\alpha}\left(\frac{q}{p}\right)^m\left(\frac{1-q}{1-p}\right)^{N-m} > 1 \\
1 & \text{otherwise}
\end{cases} \\
\end{aligned} θ ^ = { 0 1 ( 1 − α ) q m ( 1 − q ) N − m > α p m ( 1 − p ) N − m otherwise = ⎩ ⎪ ⎨ ⎪ ⎧ 0 1 α 1 − α ( p q ) m ( 1 − p 1 − q ) N − m > 1 otherwise
הפילוג של זני הפילים על פני הסוואנה אינו ידוע אך נתונות לנו התצפית הבאה של הקואורדינטות בהן נצפו הפילים:
Type
x 1 \text{x}_1 x 1
x 2 \text{x}_2 x 2
1
1
2
1
3
2
2
-2
2
3
0
-1
3
0
-5
השתמשו במסווג LDA על מנת לבנות חזאי אשר ישערך את הזן הנפוץ ביותר בכל קואורדינטה.
פתרון 8.3
נחשב את הפרמטרים של המודל הפרמטרי של LDA.
נסמן ב I c \mathcal{I}_c I c את אוסף כל התצפיות שבהם הזן הוא c c c :
I 1 = { 1 , 2 } \mathcal{I}_1=\{1,2\} I 1 = { 1 , 2 }
I 2 = { 3 } \mathcal{I}_2=\{3\} I 2 = { 3 }
I 3 = { 4 , 5 } \mathcal{I}_3=\{4,5\} I 3 = { 4 , 5 }
נשערך את p y ( y ) p_{\text{y}}(y) p y ( y ) :
p y ( y ) = { ∣ I 1 ∣ N = 2 5 1 ∣ I 2 ∣ N = 1 5 2 ∣ I 3 ∣ N = 2 5 3 p_{\text{y}}(y)=\begin{cases}
\frac{|\mathcal{I}_1|}{N}=\frac{2}{5} & 1 \\
\frac{|\mathcal{I}_2|}{N}=\frac{1}{5} & 2 \\
\frac{|\mathcal{I}_3|}{N}=\frac{2}{5} & 3 \\
\end{cases} p y ( y ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ N ∣ I 1 ∣ = 5 2 N ∣ I 2 ∣ = 5 1 N ∣ I 3 ∣ = 5 2 1 2 3
נחשב את התוחלות של כל אחת משלושת הפילוגים p x ∣ y ( x ∣ c ) p_{\mathbf{x}|\text{y}}(\boldsymbol{x}|c) p x ∣ y ( x ∣ c ) :
μ 1 = 1 ∣ I 1 ∣ ∑ i ∈ I 1 x ( i ) = 1 2 ( ( 1 2 ) + ( 3 2 ) ) = ( 2 2 ) \boldsymbol{\mu}_1=\frac{1}{|\mathcal{I}_1|}\sum_{i\in\mathcal{I}_1}\boldsymbol{x}^{(i)}
=\frac{1}{2}\left(\begin{pmatrix}1\\2\end{pmatrix}+\begin{pmatrix}3\\2\end{pmatrix}\right)
=\begin{pmatrix}2\\2\end{pmatrix} μ 1 = ∣ I 1 ∣ 1 i ∈ I 1 ∑ x ( i ) = 2 1 ( ( 1 2 ) + ( 3 2 ) ) = ( 2 2 )
μ 2 = 1 ∣ I 2 ∣ ∑ i ∈ I 2 x ( i ) = ( − 2 2 ) \boldsymbol{\mu}_2=\frac{1}{|\mathcal{I}_2|}\sum_{i\in\mathcal{I}_2}\boldsymbol{x}^{(i)}
=\begin{pmatrix}-2\\2\end{pmatrix} μ 2 = ∣ I 2 ∣ 1 i ∈ I 2 ∑ x ( i ) = ( − 2 2 )
μ 3 = 1 ∣ I 3 ∣ ∑ i ∈ I 3 x ( i ) = 1 2 ( ( 0 − 1 ) + ( 0 − 5 ) ) = ( 0 − 3 ) \boldsymbol{\mu}_3=\frac{1}{|\mathcal{I}_3|}\sum_{i\in\mathcal{I}_3}\boldsymbol{x}^{(i)}
=\frac{1}{2}\left(\begin{pmatrix}0\\-1\end{pmatrix}+\begin{pmatrix}0\\-5\end{pmatrix}\right)
=\begin{pmatrix}0\\-3\end{pmatrix} μ 3 = ∣ I 3 ∣ 1 i ∈ I 3 ∑ x ( i ) = 2 1 ( ( 0 − 1 ) + ( 0 − 5 ) ) = ( 0 − 3 )
נחשב את מטריצת covariance המשותפת של הפילוגים:
Σ = 1 N ∑ i ( x ( i ) − μ y ( i ) ) ( x ( i ) − μ y ( i ) ) T \Sigma=\frac{1}{N}\sum_{i}(\boldsymbol{x}^{(i)}-\boldsymbol{\mu}_{y^{(i)}})(\boldsymbol{x}^{(i)}-\boldsymbol{\mu}_{y^{(i)}})^T Σ = N 1 i ∑ ( x ( i ) − μ y ( i ) ) ( x ( i ) − μ y ( i ) ) T
דרך נוחה לחשב את הסכום בביטוי זה הינה באופן הבא: נגדיר את המטריצה של התצפיות לאחר חיסור של התוחלת המתאימה לכל זן:
X ~ = ( − x 1 − − x 2 − − x 3 − − x 4 − − x 5 − ) − ( − μ y 1 − − μ y 2 − − μ y 3 − − μ y 4 − − μ y 5 − ) = ( 1 2 3 2 − 2 2 0 − 1 0 − 5 ) − ( 2 2 2 2 − 2 2 0 − 3 0 − 3 ) = ( − 1 0 1 0 0 0 0 2 0 − 2 ) \tilde{X}
=\begin{pmatrix}-\boldsymbol{x}_1-\\-\boldsymbol{x}_2-\\-\boldsymbol{x}_3-\\-\boldsymbol{x}_4-\\-\boldsymbol{x}_5-\end{pmatrix}-\begin{pmatrix}-\boldsymbol{\mu}_{y_1}-\\-\boldsymbol{\mu}_{y_2}-\\ -\boldsymbol{\mu}_{y_3}-\\-\boldsymbol{\mu}_{y_4}-\\-\boldsymbol{\mu}_{y_5}-\end{pmatrix}
=\begin{pmatrix}1 & 2 \\ 3 & 2 \\ -2 & 2 \\ 0 & -1 \\ 0 & -5 \end{pmatrix}-\begin{pmatrix} 2 & 2 \\ 2 & 2 \\ -2 & 2 \\ 0 & -3 \\ 0 & -3 \end{pmatrix}
=\begin{pmatrix}-1 & 0 \\ 1 & 0 \\ 0 & 0 \\ 0 & 2 \\ 0 & -2 \end{pmatrix} X ~ = ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ − x 1 − − x 2 − − x 3 − − x 4 − − x 5 − ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ − ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ − μ y 1 − − μ y 2 − − μ y 3 − − μ y 4 − − μ y 5 − ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ = ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ 1 3 − 2 0 0 2 2 2 − 1 − 5 ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ − ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ 2 2 − 2 0 0 2 2 2 − 3 − 3 ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ = ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ − 1 1 0 0 0 0 0 0 2 − 2 ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞
ניתן להראות כי ניתן לכתוב את הסכום בביטוי ל Σ \Sigma Σ באופן הבא:
Σ = 1 N ∑ i ( x ( i ) − μ y ( i ) ) ( x ( i ) − μ y ( i ) ) T = 1 N X ~ T X ~ = 1 5 ( − 1 1 0 0 0 0 0 0 2 − 2 ) ( − 1 0 1 0 0 0 0 2 0 − 2 ) = 1 5 ( 2 0 0 8 ) \begin{aligned}
\Sigma
& =\frac{1}{N}\sum_{i}(\boldsymbol{x}^{(i)}-\boldsymbol{\mu}_{y^{(i)}})(\boldsymbol{x}^{(i)}-\boldsymbol{\mu}_{y^{(i)}})^T=\frac{1}{N}\tilde{X}^T\tilde{X}\\
& =\frac{1}{5}\begin{pmatrix}-1 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 2 & -2 \end{pmatrix}\begin{pmatrix}-1 & 0 \\ 1 & 0 \\ 0 & 0 \\ 0 & 2 \\ 0 & -2 \end{pmatrix} =\frac{1}{5}\begin{pmatrix} 2 & 0 \\ 0 & 8 \end{pmatrix}
\end{aligned} Σ = N 1 i ∑ ( x ( i ) − μ y ( i ) ) ( x ( i ) − μ y ( i ) ) T = N 1 X ~ T X ~ = 5 1 ( − 1 0 1 0 0 0 0 2 0 − 2 ) ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎛ − 1 1 0 0 0 0 0 0 2 − 2 ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎞ = 5 1 ( 2 0 0 8 )
נשתמש כעת בפילוגים שאותם שיערכנו על מנת לבנות את החזאי.
האיזור שבו זן 1 הינו הזן הסביר ביותר הינו האיזור שבו מתקיים:
{ p y ∣ x ( 1 ∣ x ) > p y ∣ x ( 2 ∣ x ) p y ∣ x ( 1 ∣ x ) > p y ∣ x ( 3 ∣ x ) \begin{cases}
p_{\text{y}|\mathbf{x}}(1|\boldsymbol{x}) > p_{\text{y}|\mathbf{x}}(2|\boldsymbol{x}) \\
p_{\text{y}|\mathbf{x}}(1|\boldsymbol{x}) > p_{\text{y}|\mathbf{x}}(3|\boldsymbol{x})
\end{cases} { p y ∣ x ( 1 ∣ x ) > p y ∣ x ( 2 ∣ x ) p y ∣ x ( 1 ∣ x ) > p y ∣ x ( 3 ∣ x )
נחשב את התנאי הראשון
p y ∣ x ( 1 ∣ x ) > p y ∣ x ( 2 ∣ x ) ⇔ p x ∣ y ( x ∣ 1 ) p y ( 1 ) > p x ∣ y ( x ∣ 2 ) p y ( 2 ) ⇔ 1 4 π 2 ∣ Σ ∣ e − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) p y ( 1 ) > 1 4 π 2 ∣ Σ ∣ e − 1 2 ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) p y ( 2 ) ⇔ − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) + log ( p y ( 1 ) ) > − 1 2 ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) + log ( p y ( 2 ) ) ⇔ x T Σ − 1 ( μ 1 − μ 2 ) + 1 2 ( μ 2 T Σ − 1 μ 2 − μ 1 T Σ − 1 μ 1 ) + log ( p y ( 1 ) p y ( 2 ) ) > 0 \begin{aligned}
p_{\text{y}|\mathbf{x}}(1|\boldsymbol{x}) &> p_{\text{y}|\mathbf{x}}(2|\boldsymbol{x}) \\
\Leftrightarrow p_{\mathbf{x}|\text{y}}(\boldsymbol{x}|1)p_{\text{y}}(1) &> p_{\mathbf{x}|\text{y}}(\boldsymbol{x}|2)p_{\text{y}}(2) \\
\Leftrightarrow
\frac{1}{\sqrt{4\pi^2|\Sigma|}}e^{-\tfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_1)^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_1)}p_{\text{y}}(1)
&>
\frac{1}{\sqrt{4\pi^2|\Sigma|}}e^{-\tfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_2)^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_2)}p_{\text{y}}(2) \\
\Leftrightarrow
-\tfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_1)^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_1)+\log\left(p_{\text{y}}(1)\right)
&>
-\tfrac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_2)^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_2)+\log\left(p_{\text{y}}(2)\right) \\
\Leftrightarrow
\boldsymbol{x}^T\Sigma^{-1}(\boldsymbol{\mu}_1-\boldsymbol{\mu}_2)
+\tfrac{1}{2}(\boldsymbol{\mu}_2^T\Sigma^{-1}\boldsymbol{\mu}_2 &-\boldsymbol{\mu}_1^T\Sigma^{-1}\boldsymbol{\mu}_1)
+\log\left(\frac{p_{\text{y}}(1)}{p_{\text{y}}(2)}\right)
>0
\end{aligned} p y ∣ x ( 1 ∣ x ) ⇔ p x ∣ y ( x ∣ 1 ) p y ( 1 ) ⇔ 4 π 2 ∣ Σ ∣ 1 e − 2 1 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) p y ( 1 ) ⇔ − 2 1 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) + log ( p y ( 1 ) ) ⇔ x T Σ − 1 ( μ 1 − μ 2 ) + 2 1 ( μ 2 T Σ − 1 μ 2 > p y ∣ x ( 2 ∣ x ) > p x ∣ y ( x ∣ 2 ) p y ( 2 ) > 4 π 2 ∣ Σ ∣ 1 e − 2 1 ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) p y ( 2 ) > − 2 1 ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) + log ( p y ( 2 ) ) − μ 1 T Σ − 1 μ 1 ) + log ( p y ( 2 ) p y ( 1 ) ) > 0
זוהי למעשה הפרדה לשני תחומים על ידי הקו הבא:
a T x + b = 0 \boldsymbol{a}^T \boldsymbol{x}+b=0 a T x + b = 0
כאשר:
a = Σ − 1 ( μ 1 − μ 2 ) = ( 10 0 ) b = 1 2 ( μ 2 T Σ − 1 μ 2 − μ 1 T Σ − 1 μ 1 ) + log ( p y ( 1 ) p y ( 2 ) ) = log ( 2 ) \begin{aligned}
&\boldsymbol{a}=\Sigma^{-1}(\boldsymbol{\mu}_1-\boldsymbol{\mu}_2)
=\begin{pmatrix} 10 \\ 0 \end{pmatrix} \\
& b=\tfrac{1}{2}(\boldsymbol{\mu}_2^T\Sigma^{-1}\boldsymbol{\mu}_2 - \boldsymbol{\mu}_1^T\Sigma^{-1}\boldsymbol{\mu}_1) + \log\left(\frac{p_{\text{y}}(1)}{p_{\text{y}}(2)}\right)
=\log(2)
\end{aligned} a = Σ − 1 ( μ 1 − μ 2 ) = ( 1 0 0 ) b = 2 1 ( μ 2 T Σ − 1 μ 2 − μ 1 T Σ − 1 μ 1 ) + log ( p y ( 2 ) p y ( 1 ) ) = log ( 2 )
זוהי כמובן התוצאה עבור מסווג LDA בינארי בין שני הזנים של y = 1 \text{y}=1 y = 1 ו y = 2 \text{y}=2 y = 2 .
מכאן שהקו המפריד בין זן 1 ל זן 2 נתון על ידי:
1 − 2 : 10 x 1 + log ( 2 ) = 0 1-2:\quad 10x_1+\log(2)=0 1 − 2 : 1 0 x 1 + log ( 2 ) = 0
באופן דומה ניתן לחשב גם את שני קווי ההפרדה האחרים (בין 1 ל 3 ובין 2 ל 3):
1 − 3 : 5 x 1 + 25 8 x 2 + 55 16 = 0 1-3:\quad 5x_1+\frac{25}{8}x_2+\frac{55}{16}=0 1 − 3 : 5 x 1 + 8 2 5 x 2 + 1 6 5 5 = 0
2 − 3 : − 5 x 1 + 25 8 x 2 + 55 16 − log ( 2 ) = 0 2-3:\quad -5x_1+\frac{25}{8}x_2+\frac{55}{16}-\log(2)=0 2 − 3 : − 5 x 1 + 8 2 5 x 2 + 1 6 5 5 − log ( 2 ) = 0
תרגיל מעשי - שיערוך הפילוג של זמני נסיעה בניו יורק
נחזור לבעיה מהתרגול הקודם של שיערוך הפילוג של זמן הנסיעה של מונית מתוך המדגם הבא:
passenger count
trip distance
payment type
fare amount
tip amount
pickup easting
pickup northing
dropoff easting
dropoff northing
duration
day of week
day of month
time of day
0
2
2.76806
2
9.5
0
586.997
4512.98
588.155
4515.18
11.5167
3
13
12.8019
1
1
3.21868
2
10
0
587.152
4512.92
584.85
4512.63
12.6667
6
16
20.9614
2
1
2.57494
1
7
2.49
587.005
4513.36
585.434
4513.17
5.51667
0
31
20.4128
3
1
0.965604
1
7.5
1.65
586.649
4511.73
586.672
4512.55
9.88333
1
25
13.0314
4
1
2.46229
1
7.5
1.66
586.967
4511.89
585.262
4511.76
8.68333
2
5
7.70333
5
5
1.56106
1
7.5
2.2
585.926
4512.88
585.169
4511.54
9.43333
3
20
20.6672
6
1
2.57494
1
8
1
586.731
4515.08
588.71
4514.21
7.95
5
8
23.8419
7
1
0.80467
2
5
0
585.345
4509.71
585.844
4509.55
4.95
5
29
15.8314
8
1
3.6532
1
10
1.1
585.422
4509.48
583.671
4507.74
11.0667
5
8
2.09833
9
6
1.62543
1
5.5
1.36
587.875
4514.93
587.701
4513.71
4.21667
3
13
21.7831
ננסה להתאים מודל פרמטרי בעזרת שיערוך MLE.
ניסיון 1: פילוג גאוסי
נשתמש במודל של פילוג נורמלי לתיאור הפילוג של משך הנסיעה. למודל זה שני פרמטרים, התוחלת μ \mu μ והשונות σ \sigma σ .
סימונים והנחות:
N N N - מספר הדגמים במדגם.
θ = [ μ , σ ] T \boldsymbol{\theta}=\left[\mu,\sigma\right]^T θ = [ μ , σ ] T - וקטור הפרמטרים של המודל
p normal ( x ( i ) ; θ ) = 1 2 π σ 2 exp ( − ( x ( i ) − μ ) 2 2 σ 2 ) , i = 1 , . . . , N p_\text{normal}\left(x^{(i)};\boldsymbol{\theta}\right)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{\left(x^{(i)}-\mu\right)^2}{2\sigma^2}\right), i=1,...,N p normal ( x ( i ) ; θ ) = 2 π σ 2 1 exp ( − 2 σ 2 ( x ( i ) − μ ) 2 ) , i = 1 , . . . , N - המודל
ראינו כי בעבור המודל הנורמלי, ניתן למצוא את הפרמטרים של משערך הMLE באופן מפורש (אנליטית), והפתרון נתון על ידי:
μ = 1 N ∑ i x ( i ) σ = 1 N ∑ i ( x ( i ) − μ ) 2 \begin{aligned}
\mu=\displaystyle{\frac{1}{N}\sum_i x^{(i)}} \\
\sigma=\sqrt{\displaystyle{\frac{1}{N}\sum_i\left(x^{(i)}-\mu\right)^2}}
\end{aligned} μ = N 1 i ∑ x ( i ) σ = N 1 i ∑ ( x ( i ) − μ ) 2
בעבור המדגם הנתון נקבל:
μ ^ = 11.4 min \hat{\mu} = 11.4\ \text{min} μ ^ = 1 1 . 4 min
σ ^ = 7.0 min \hat{\sigma} = 7.0\ \text{min} σ ^ = 7 . 0 min
ההיסטוגרמה של של משכי הנסיעה יחד עם הפילוג המשוערך:
הפילוג הנורמלי נותן קירוב מאד גס לפילוג האמיתי.
עובדה אחת שמאד מטרידה לגבי הפילוג שקיבלנו הינה שישנו סיכוי לא אפסי לקבל נסיעות עם משך נסיעה שלילי.
נסיון 2: פילוג Rayleigh
פילוג Rayleigh מתאר את הפילוג של האורך האוקלידי (l 2 l_2 l 2 norm) של וקטור גאוסי דו מימדי עם תוחלת 0 וחוסר קורלציה ופילוג זהה לשני רכיבי הוקטור.
במלים אחרות, עבור וקטור בעל הפילוג הבא:
Z ∼ N ( [ 0 0 ] , [ σ 2 0 0 σ 2 ] ) \boldsymbol{Z}\sim N\left(\begin{bmatrix} 0 \\ 0 \end{bmatrix}, \begin{bmatrix} \sigma^2 & 0 \\ 0 & \sigma^2 \end{bmatrix}\right) Z ∼ N ( [ 0 0 ] , [ σ 2 0 0 σ 2 ] )
פילוג Rayleigh מתאר את הגודל ∥ Z ∥ 2 = Z x 2 + Z y 2 \left\lVert\boldsymbol{Z}\right\rVert_2=\sqrt{Z_x^2+Z_y^2} ∥ Z ∥ 2 = Z x 2 + Z y 2 .
פונקציית צפיפות ההסתברות של פילוג Reyleigh נתונה על ידי:
p Rayleigh ( z ; σ ) = z σ 2 exp ( − z 2 2 σ 2 ) , z ≥ 0 p_\text{Rayleigh}\left(z;\sigma\right)=\frac{z}{\sigma^2}\exp\left({-\frac{z^2}{2\sigma^2}}\right), \quad z\geq0 p Rayleigh ( z ; σ ) = σ 2 z exp ( − 2 σ 2 z 2 ) , z ≥ 0
פונקציית צפיפות ההסתברות של פילוג Reyligh נתונה על ידי:
p Rayleigh ( z ; σ ) = z σ 2 exp ( − z 2 2 σ 2 ) , z ≥ 0 p_\text{Rayleigh}\left(z;\sigma\right)=\frac{z}{\sigma^2}\exp\left({-\frac{z^2}{2\sigma^2}}\right), \quad z\geq0 p Rayleigh ( z ; σ ) = σ 2 z exp ( − 2 σ 2 z 2 ) , z ≥ 0
שימו לב: הפילוג מוגדר רק בעבור ערכים חיוביים.
לפילוג זה פרמטר יחיד σ \sigma σ שנקרא פרמטר סקאלה (scale parameter). בניגוד לפילוג הנורמלי, פה σ \sigma σ אינה שווה לסטיית התקן של הפילוג.
מוטיבציה לשימוש בפילוג Rayleigh
נניח שוקטור המחבר את נקודת תחילת הנסיעה עם נקודת סיום הנסיעה הינו וקטור דו מימדי אשר מפולג נרמלית, ולשם הפשטות נניח כי רכיביו מפולגים עם פילוג זהה וחסר קורלציה.
נניח כי המונית נוסעת בקירוב בקו ישר בין נקודת ההתחלה והסיום. לכן, המרחק אותו נוסעת המכונית יהיה מפולג על פי פילוג Reyleigh.
נניח בנוסף כי מהירות הנסיעה קבועה ולכן משך הנסיעה פורפורציוני למרחק ולכן גם הוא יהיה מפולג על פי פילוג Reyleigh.
חישוב
לשם השלמות נסמן את וקטור הפרמטרים ב: θ = [ σ ] \theta=\left[\sigma\right] θ = [ σ ]
במקרה זה המודל נתון על ידי:
p rayleigh ( x ; θ ) = ∏ i = 1 N x ( i ) θ 2 exp ( − ( x ( i ) ) 2 2 θ 2 ) p_\text{rayleigh}\left(\boldsymbol{x};\theta\right)=\prod_{i=1}^{N}\frac{x^{(i)}}{\theta^2}\exp\left(-\frac{(x^{(i)})^2}{2\theta^2}\right) p rayleigh ( x ; θ ) = i = 1 ∏ N θ 2 x ( i ) exp ( − 2 θ 2 ( x ( i ) ) 2 )
ופונקציית ה log likelihood תהיה:
l rayleigh ( θ ) = ∑ i log ( p rayleigh ( x ( i ) ; θ ) ) = ∑ i log ( x ( i ) ) − 2 N log ( θ ) − 1 2 θ 2 ∑ i ( x ( i ) ) 2 \begin{aligned}
l_\text{rayleigh}\left(\theta\right)
& = \sum_i\log\left(p_\text{rayleigh}\left(x^{(i)};\theta\right)\right) \\
& = \sum_i\log\left(x^{(i)}\right)-2N\log\left(\theta\right)-\frac{1}{2\theta^2}\sum_i(x^{(i)})^2
\end{aligned} l rayleigh ( θ ) = i ∑ log ( p rayleigh ( x ( i ) ; θ ) ) = i ∑ log ( x ( i ) ) − 2 N log ( θ ) − 2 θ 2 1 i ∑ ( x ( i ) ) 2
בעיית האופטימיזציה הינה:
θ ^ = arg min θ − ∑ i log ( x ( i ) ) + 2 N log ( θ ) + 1 2 θ 2 ∑ i ( x ( i ) ) 2 \hat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\arg\min}\quad-\sum_i\log\left(x^{(i)}\right)+2N\log\left(\theta\right)+\frac{1}{2\theta^2}\sum_i(x^{(i)})^2 θ ^ = θ arg min − i ∑ log ( x ( i ) ) + 2 N log ( θ ) + 2 θ 2 1 i ∑ ( x ( i ) ) 2
גם בעבור המקרה הזה נוכל לפתור את בעיית האופטימיזציה באופן אנליטי על ידי גזירה והשוואה לאפס:
∂ l rayleigh ( θ ) ∂ θ = 0 ⇔ − 2 N θ + ∑ i ( x ( i ) ) 2 θ 3 = 0 ⇔ σ ^ = θ = 1 2 N ∑ i ( x ( i ) ) 2 \begin{aligned}
& \frac{\partial l_\text{rayleigh}\left(\theta\right)}{\partial\theta}=0 \\
\Leftrightarrow & -\frac{2N}{\theta}+\frac{\sum_i(x^{(i)})^2}{\theta^3}=0 \\
\Leftrightarrow & \hat{\sigma} = \theta=\sqrt{\frac{1}{2N}\sum_i (x^{(i)})^2}
\end{aligned} ⇔ ⇔ ∂ θ ∂ l rayleigh ( θ ) = 0 − θ 2 N + θ 3 ∑ i ( x ( i ) ) 2 = 0 σ ^ = θ = 2 N 1 i ∑ ( x ( i ) ) 2
בעבור המדגם הנתון נקבל:
σ ^ = 9.5 \hat{\sigma} = 9.5 σ ^ = 9 . 5
נוסיף את השיערוך החדש שקיבלנו לגרף ממקודם:
המודל של פילוג Rayleigh טוב יותר מהמודל הנורמלי.
אין הסתברות שונה מ0 לקבל משך נסיעה שלילי.
נסיון 3: Generalized Gamma Distribution
פילוג Rayleigh הינו מקרה פרטי של משפחה כללית יותר של פונקציות פילוג המכונה Generalized Gamma Distribution.
פונקציית צפיפות ההסתברות של משפחה זו נתונה על ידי:
p gengamma ( z ; σ , a , c ) = c z c a − 1 exp ( − ( z / σ ) c ) σ c a − 1 Γ ( a ) , z ≥ 0 p_\text{gengamma}\left(z;\sigma,a,c\right)=
\frac{cz^{ca-1}\exp\left(-\left(z/\sigma\right)^c\right)}{\sigma^{ca-1}\Gamma\left(a\right)}
, \quad z\geq0 p gengamma ( z ; σ , a , c ) = σ c a − 1 Γ ( a ) c z c a − 1 exp ( − ( z / σ ) c ) , z ≥ 0
כש- Γ \Gamma Γ היא פונקציה המוכנה פונקציית גמא (gamma function)
למודל זה 3 פרמטרים: θ = [ σ , a , c ] T \boldsymbol{\theta}=\left[\sigma, a, c\right]^T θ = [ σ , a , c ] T .
בעבור c = 2 c=2 c = 2 ו a = 1 a=1 a = 1 נקבל את פילוג Rayleigh כאשר σ g a m m a = 2 σ r a y l e i g h \sigma_{gamma}=2\sigma_{rayleigh} σ g a m m a = 2 σ r a y l e i g h .
בשונה מהמקרים של פילוג נורמלי ופילוג Rayleigh, לא נוכל למצוא בקלות את הפרמטרים האופטימאלים של המשערך באופן אנליטי.
לכן, לשם מציאת הפרמטרים נאלץ להעזר בפתרון נומרי.
נעשה שימוש באחת החבילה של Python הנקראת SciPy. חבילה זו מכילה מודלים הסברותיים רבים ומכילה מספר רב של כלים הקשורים למודלים אלו, כגון מציאת הפרמטרים האופטימאלים בשיטת MLE על סמך מדגם נתון. את הפונקציות הקשורות למודל הGeneralized Gamma Distribution ניתן למצוא כאן . אתם תעשו שימוש בפונקציות אלו בתרגיל הבית הרטוב.
שימוש בפונקציה הנ"ל, מניב את התוצאות הבאות:
a ^ = 4.4 \hat{a} = 4.4 a ^ = 4 . 4
c ^ = 0.8 \hat{c} = 0.8 c ^ = 0 . 8
σ ^ = 1.6 \hat{\sigma} = 1.6 σ ^ = 1 . 6
נוסיף את השיערוך החדש שקיבלנו לגרף הקודם:
המודל של Generalized Gamma Distribution אכן מניב תוצאה אשר דומה מאד לצורת ההיסטוגרמה.