迴歸分析到底在估什麼？不同損失函數估計的性質不同

之前有個朋友在面試一個 quant 的職位時，被問到了一個問題：「如果在迴歸分析時把估計的損失函數調成平均絕對離差 (mean absolute deviation，或稱 $latex \ell_1$ 函數)，會發生什麼事情？」朋友當下的回答是從最佳化的角度去分析，但面試官說他心裡的答案是變成估計中位數，我朋友百思不得其解，跟我說了這件事，我心裡想說：哈哈學統計還是有點用，至少面試的時候會答得出這題！讓我跟大家分享一下為什麼是中位數吧！

最小平方誤差 (Least Squared Estimation) 迴歸：估計條件平均數

在迴歸分析的時，我們估計的邏輯是「極小化估計式 $latex f(X)$ 與反應變數 $latex Y$ 的誤差」，一般最常見的損失函數 (loss function) 是均方誤差 (mean-squared error) $latex \mathbb{E} (Y- f(X) | X)^2$，在極小化均方誤差的情況下，得到的估計式 $latex \widehat{f}(X) = \mathbb{E} (Y|X)$。

上述的結果很容易得到，首先令 $latex \widehat{Y} = f(X)$，展開均方誤差得到：

$\begin{matrix} \mathbb{E} \left[\left(Y- \widehat{Y} \right)^2 | X\right] = \mathbb{E} \left[Y^2 |X\right] - 2 \widehat{Y} \mathbb{E} \left[Y |X\right] + \widehat{Y}^2$ \end{matrix}$

接著對 $latex \widehat{Y}$ 微分可得

$\begin{matrix} \frac{d}{d\widehat{Y}} \mathbb{E}\left[\left(Y- \widehat{Y}^2 \right ) | X \right ] = -2 \cdot \mathbb{E}\left [Y|X \right ] + 2 \widehat{Y} = 0 \end{matrix}$

解得使均方誤差最小的 $latex \widehat{Y} = E(Y|X) $。因此，最小平方法其實是逼在近 $latex Y$ 的(條件)平均數。

最小絕對離差 (Least Absolute Deviation) 迴歸：估計中位數

如果今天將估計的損失函數改成 $latex \ell_1$ 函數 $latex \mathbb{E} \left(|Y-f(X)| | X\right)$，極小化得出的估計式會是什麼呢？答案是條件分配 $latex Y|X$ 的中位數 (median)。這個結果也很容易得到，首先展開損失函數得到

$\begin{matrix} \mathbb{E} \left(\left|y-\widehat{Y}\right| | X\right)&= \int_{y >\widehat{Y}} \left[y -\widehat{Y}\right]f(y|x) dy+ \int_{y \leq\widehat{Y}}\left[\widehat{Y}-y\right]f(y|x) dy \\ \end{matrix}$

接著針對上式子微分可以得到

$\begin{matrix} \frac{d}{d\widehat{Y}}~\mathbb{E} \left(\left|y-\widehat{Y}\right| | X\right)&= - \int_{y >\widehat{Y}} f(y|x) dy+ \int_{y \leq\widehat{Y}}f(y|x) dy \\[2ex] &=- \mathbb{P}\left(Y > \widehat{Y}|X\right) + \mathbb{P}\left(Y \leq \widehat{Y} |X \right)\\[2ex] &= -1 + 2 \cdot \mathbb{P}\left(Y \leq \widehat{Y}|X\right) = 0 \\[2ex] \Rightarrow ~\mathbb{P}\left(Y \leq \widehat{Y}|X\right) = \frac{1}{2}~& \Rightarrow ~\widehat{Y}~\mathrm{is~the~median~of~}Y|X.~~~~~~~~~~ \end{matrix}$

分量迴歸 (Quantile Regression)

在這裡大鼻再跟大家加碼一個估計方法，如果我今天想估計的是分量 (quantile)，比如說：第 5 百分位數，那要怎麼樣調整估計函數呢？假設我們想估計的是$latex \theta-th$ 分量，答案很簡單：

$\begin{matrix} \theta\int_{y>f(X)} \left|y-f(X)\right|f(y|x)dy+(1-\theta)\int_{y\leq f(X)} \left|y-f(X)\right|f(y|x)dy \end{matrix}$

如何證明呢？其實跟上面中位數一樣，所以就留給有興趣的人自己練習看看囉！分量回歸在預估投資組合的風險值 (VaR 值，Value-at Risk) 非常有用，以前我做實習的時候就有建立外匯投資組合報酬在不同利率條件下的第五百分位數。

小結：弄清楚不同損失函數在估計什麼

不論你是從預測的角度出發，還是從解釋的角度出發，做迴歸分析都要搞清楚，你使用的實證損失函數 (empirical loss function) ，回到母體的角度，到底在估計什麼。這樣在面對特定問題時，才會知道到底要怎麼樣設計損失函數喔！這篇我試著用最簡單的方式，解釋為什麼最小平方誤差在估計平均數，而最小絕對離差是在估計中位數。有關 David’s Perspective 的最新文章，都會發布在大鼻的 Facebook 粉絲專頁，如果你喜歡大鼻的文章，還請您不吝嗇地按讚或留言給我喔！

大鼻觀點：https://www.facebook.com/davidperspective/

迴歸分析到底在估什麼？不同損失函數估計的性質不同

最小平方誤差 (Least Squared Estimation) 迴歸：估計條件平均數

最小絕對離差 (Least Absolute Deviation) 迴歸：估計中位數

分量迴歸 (Quantile Regression)

小結：弄清楚不同損失函數在估計什麼

About David Huang

1 Comment

發表迴響取消回覆

最小平方誤差 (Least Squared Estimation) 迴歸：估計條件平均數

最小絕對離差 (Least Absolute Deviation) 迴歸：估計中位數

分量迴歸 (Quantile Regression)

小結：弄清楚不同損失函數在估計什麼

About David Huang

1 Comment

發表迴響 取消回覆

發表迴響取消回覆