P-值已經死了嗎？莫須有罪名的最大受害者！

最近在泛科學上看到一篇非常精彩的文章，是在談論「p-值」在研究上的問題，其實看完之後滿有感觸的，儘管 p-值是個在初等統計學就會談到的統計量，但大部分的學生(甚至某些研究人員)學完後只記得：p-值 < 0.05 的話就拒絕虛無假設。因為這個條件非常簡單好記，而且大多數的統計軟體都會報告 p-值，所以不少人會直接看 p-值就做出結論。

其實 p-值本人是相當無辜的，美國統計協會 (American Statistical Association, ASA) 在2016年的聲明中提到一段有趣的對話：

Q: Why do so many colleges and grad schools teach p = 0.05?
A: Because that’s still what the scientific community and journal editors use.
Q: Why do so many people still use p = 0.05?
A: Because that’s what they were taught in college or grad school.

坦白說，p-值的誤用本質上可說是因為「教學」本身出了問題，我一直到大四為止也都覺得 p-值 <0.05，拒絕虛無假設，世界圓滿，現在看到許多學弟妹作分析，也會直接寫「p-值 <0.05，拒絕虛無假設，資料證明了A因子是B結果的重要原因」，其實這樣的推論是非常危險的。所以，我決定了寫一篇介紹 p-值的文章。

假設檢定：Neyman-Pearson Paradigm

在探討 p-值的意義前，我們必須先了解假設檢定的基本精神：現在有一個統計模型(這個模型就是真理)，裡面有個參數 $latex \theta$，傳統統計的目標是希望去「推論」參數 $latex \theta$ 的性質，比如說：$latex \theta$ 的值為多少？(估計) 現在有個假設/宣稱是 $latex \theta$ 落在某個區域 $latex \theta \in \Theta$，根據蒐集的資料這個假設是不是正確的？(檢定)

所謂的假設檢定 (Hypothesis Test) 便是如上所說：有個假設 (hypothesis) 是「參數 $latex \theta$ 落在區域 $latex \Theta$，$latex \theta \in \Theta$」，希望根據蒐集到的資料，驗證上述假設的真實性。我們稱「參數 $latex \theta$ 落在區域 $latex \Theta$， $latex \theta \in \Theta$」這個假設被稱為虛無假設 (null hypothesis，$latex H_0$) ，也就是無中生有的假設。同時，也有對立假設(alternative hypothesis，$latex H_1$)，是與虛無假設完全相反的假設，也就是「參數 $latex \theta$ 並不落在區域 $latex \Theta$，$latex \theta \notin \Theta$」。因此，真實情況下只有兩種可能，「$latex H_0$ 為真」或是「$latex H_0$ 為假」。同時，我們觀察資料後也只能得到兩種結果：「資料有充分證據證明 $latex H_0$ 為假」以及「資料沒有充分證據證明 $latex H_0$ 為假」。

在假設檢定中有三個重要的要素：統計模型(真理)、虛無假設、資料。舉個例子吧！有一個好事者說：「大鼻長得帥。」大家當然會想要問：你憑什麼這麼說？有何證據？因此，好事者就說：好吧！那我就來隨機問問台北市的路人大鼻帥不帥，把第 $latex i$ 個人的回答紀錄成 $latex X_i$，假設全台北市的人中覺得大鼻帥的人的比率為 $latex \theta$，如果有超過 50% 的人說大鼻帥 (也就是 $latex \theta > 0.5$) ，如此一來我們就可以進行假設檢定了：

統計模型：$latex X_i \sim Bernoulli(\theta)$，其中每個人的回答都是獨立的。
資料：隨機詢問100個台北市的路人，蒐集到了樣本 $latex (X_1,\cdots,X_{100})$。
假設：$latex H_0:~\theta \leq 0.5$ (虛無假設為大鼻不帥，好事者想利用資料去證明虛無假設不是真的)。

在假設檢定中，我們可以考量兩個維度，其中一個維度是「真實情況下虛無假設是否為真」，另一個維度則是「根據蒐集來的資料，是否拒絕虛無假設」，由此我們可以得出在進行假設檢定時會有以下四種情況：

由於每一次抽出的樣本都會不同，比如說：好事者每天遇到的100個路人應該都不一樣，我們沒辦法保證每一次抽出的樣本都能反映出真實情況，因此在進行假設檢定時可能會犯兩種錯誤：

型一錯誤 (Type I Error)：虛無假設為真，樣本卻顯示我們應該拒絕虛無假設。
型二錯誤 (Type II Error)：虛無假設為偽，樣本卻顯示我們應該接受虛無假設。

理想上，我們希望能夠讓型一錯誤與型二錯誤的機率越低越好，最好都是0，但假設檢定的天性，使得這件事無法發生。如果我們希望型一錯誤發生的機率比較小 (上圖紅色區域的面積)，代表我們應當將「拒絕虛無假設」的標準訂得更嚴格一點 (拒絕域比較窄)，才不會一不小心就拒絕了虛無假設。然而，這麼一來就有可能在虛無假設為假的情況下，仍然不拒絕虛無假設，也就是型二錯誤發生的機率(上圖藍色區域的面積)變高了！反之，如果我們希望型二錯誤發生的機率比較小(下圖藍色區域的面積)，代表我們應當將「拒絕虛無假設」的標準訂得寬鬆一點(拒絕域比較寬)，但這樣一來型一錯誤的機率(下圖紅色區域的面積)就會上升。

在型一錯誤與型二錯誤的機率存在抵讓 (trade-off) 關係時，統計學家決定：不如我們先限制其中一項錯誤的機率，再去看看要如何找出拒絕的標準，使得另一項錯誤發生的機率越低越好。因此，在進行假設檢定時，我們的首先會確保型一錯誤的機率不超過一個很小的數值 $latex \alpha$，一般習慣將 $latex \alpha$ 訂為 10%、5%、或是 1% (只是習慣)，確保型一錯誤發生的機率很低。接著，我們找出一個拒絕的標準，使得型二錯誤發生的機率越小越好。通常，我們將「拒絕虛無假設的標準」寫成一個區域的型式，稱為拒絕域 $latex RR$ (rejection region)，當我們蒐集到的樣本落於拒絕域 $latex RR $時，我們便拒絕虛無假設。

因此，當型一錯誤的機率$latex \mathbb{P}\left(X_1,\cdots,X_{100})\in RR|H_0~is~true\right) \leq \alpha$被$latex ~\alpha$控制住後，我們就可以依照某些方法，計算出實際得拒絕域 $latex RR$。一旦拒絕域決定了，我們便可以計算出型二錯誤的機率 $latex \beta = \mathbb{P}\left(X_1,\cdots,X_{100}) \notin RR|H_0~is~false\right)$。此時，我們將一個假設檢定的檢定力 (power) 定義為 $latex 1-\beta$。統計學家期待能夠在控制住型一錯誤發生機率的情況下，得到一個拒絕域 $latex RR^\star$，使得型二錯誤發生的機率最小，也就是使得檢定力最強。這樣利用$latex ~\alpha$控制住型一錯誤的方法，就是所謂的Neyman-Pearson Paradigm。而針對給定的虛無假設，「拒絕域為$latex RR^\star$」的檢定方法，就稱為「最強檢定力檢定」(most powerful test)。

P-值：幫助我們決定是否拒絕 $latex H_0$ 的好工具

前面講了一大串都沒有談到 p-值是什麼，現在終於要開始了！P-值最早是在 1900年在 Pearson卡方檢定的論文中被提出的 (皮爾森大大真是了不起RRRR)，其實p-值本身有一個更一般化的定義，但在這裡我用的是平常我們看見的 p-值的定義。

假設現在好事者已經問完100個路人，得到了一組樣本。p-值的定義是，「在虛無假設為真的情況下，如果好事者明天再去蒐集一次樣本，得出的新樣本比目前的樣本更能拒絕虛無假設的機率」。大鼻阿，你到底在說什麼啊…… 讓我來畫個圖跟大家說明。在下圖中，資料越靠近右邊，代表拒絕虛無假設的傾向越強，而灰色的線是今天好事者抽到的一組樣本，紅色的曲線是在虛無假設為真的情況下，樣本的機率密度 (probability density)，那麼落在這組樣本右手邊的紅色面積，就是所謂的 p-值：在做一次調查，得到一組與目前資料相比，「更傾向拒絕虛無假設」樣本的機率值。

如果我們得到的 p-值很小，就代表著：目前這組樣本拒絕虛無假設的傾向已經非常強了，幾乎不可能再得到更傾向於拒絕虛無假設的樣本了，因此 p-值只要夠小，我們就可以拒絕虛無假設。這時我們很自然會想問，p-值到底要多小，才算是夠小呢？其實我們可以 p-值跟 $latex \alpha$來比較，下圖中資料落於拒絕域的機率(藍色區域面積)為 $latex \alpha$，我們可以很清楚的看到如果 p-值 (紅色區域面積) 比 $latex \alpha$ 還小，就代表今天蒐集到的樣本落於拒絕域。這就是為什麼我們常說 p-值 < 0.05 就拒絕虛無假設的原因。

小結：定義有說的才能，沒說的就不能

在大家了解 p-值的定義之後，我們就可以來看看美國統計協會的聲明中提供的 p-值使用指引：

P-values can indicate how incompatible the data are with a specified statistical model.
大家如果只單看這句話，可能會覺得「p-值可以用指出實際資料與預設統計模型的差異性」，但如果仔細看ASA文章裡的敘述，會知道「預設統計模型」是指「虛無假設為真情況下的統計模型」。
P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
聲明中提到，p-值並不是用來衡量「虛無假設為真」的機率，若硬要談到「虛無假設為真」的機率，其實要嘛是1 (虛無假設為真)，要嘛是0 (虛無假設不為真)，p-值用來衡量的是在虛無假設為真的情況下，我再重新蒐集樣本，新的樣本比現有樣本更能拒絕虛無假設證據的機率。
Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
從來每有一個統計學家會說，只要 p-值 < 0.05 (或可說是達成統計顯著)，就天下太平了。 p-值只是眾多統計指標中的一個衡量方法而已，如果在最初設計統計模型時就設計錯了，而沒有去檢驗最初模型設定的合理性，那麼 p-值 < 0.05甚至會為你帶來一場災難！
Proper inference requires full reporting and transparency.
對於統計這麼學問掌握純熟的人，其實說到底很容易去「操弄 p-值」，說到底這是一個非常糟糕的行為，但就跟小時候做實驗掰數據一樣，很快就能產生好結果。真正要驗證一個理論的正確性時，是需要做許多不同的統計測試的，像是財務界頂尖期刊 Journal of Finance裡面的統計驗證方法就非常嚴謹，值得效法。
A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
在迴歸裡面，我們時常會去檢定一個解釋變數的係數是否為0，有些人會覺得 p-值越小代表這個變數越重要，錯！其實只要你的樣本數大一點，任何的解釋變數係數是否為0的檢定都很容易得到足夠小的 p-值。有興趣的朋友可以看看這一篇論文，有詳細解釋大樣本時 p-值的問題。
我自己習慣是，假設現在有30萬個資料，我可能會從裡面隨機抽出10000組樣本數為100的小樣本，然後在每個小樣本上去跑回歸，看看p-值 < 0.05的比率有多高，但我不確定這個手法有沒有很嚴謹的統計證明，如果有朋友有方法的話還請告訴我！
By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
簡單來說，其實 p-值並不能完全代表真實資料與模型之間的差距，仍然需要進行更縝密的資料分析才能做到品質比較高的統計推論。其實很簡單，如果只是看看 p-值就萬事大吉，還要這麼多統計學家幹嘛 XD

希望大家看完這篇文章，有更了解 p-值的本質。 P-值本人是相當無辜的，而且也從來沒人說 $latex \alpha = 0.05$是真理，需要依據你的問題與蒐集到的資料，來判斷$latex \alpha$應該要落在哪個水準比較合理。在抨擊 p-值本人前，要想想世上無完人，他能夠做的就是他的本分，不要再逼迫已經年齡過百的他了 QAQ

有關 David’s Perspective 的最新文章，都會發布在大鼻的 Facebook 粉絲專頁，如果你喜歡大鼻的文章，還請您不吝嗇地按讚或留言給我喔！

大鼻觀點：https://www.facebook.com/davidperspective/

11 Comments

Freddy 說：

2017-01-12 at 10:05:46

抱歉，型一與型二錯誤的那段 “…但這樣一來型一錯誤的機率(下圖『藍色』區域)就會上升。" 應該是紅色？

回覆
1. David Huang 說：
  
  2017-01-12 at 13:37:34
  
  對的，抱歉不小心筆誤，已經更正了，謝謝你的提醒！
  
  回覆
通告： P 值已死，嗎？莫須有罪名的最大受害者！ - PanSci 泛科學
通告： P 值已死，嗎？莫須有罪名的最大受害者！ - dropBlog
Kevin 說：

2017-01-21 at 14:59:12

Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
從來"每"有一個統計學家會說

小錯字
感謝分享文章受益良多:)

回覆
ck 說：

2017-03-12 at 00:06:59

你好,

想請問一下關於p-value的定義。

在文章中有提到 “p-值的定義是，「在虛無假設為真的情況下，如果好事者明天再去蒐集一次樣本，得出的新樣本比目前的樣本更能拒絕虛無假設的機率」

但就我所知p-value的定義是“在虛無假設為真的情況下，得到此結果及更極端數據之機率”。(換句話說，p-value是描述現有結果在“虛無假設為真“情況下的機率，而不是比較新的樣本與現有樣本拒絕虛無假設的機率)

不知道您的看法是？

回覆
1. David Huang 說：
  
  2017-03-14 at 21:35:38
  
  嗨，其實這兩句話的意思是完全一樣的喔！你看到的定義「得到此結果及更極端數據的機率」，抽樣不是已經抽完了嗎？怎麼會有更極端的數據呢？其實這就是指「在進行新的抽樣時，得到此根本次抽樣結果一樣或是更極端數據的機率」。另外「極端」這個詞彙其實一般人不太理解是什麼意思，虛無假設為真的情況下，「極端」其實指的就是「拒絕虛無假設」，。
  
  另外，p-value是描述現有結果在“虛無假設為真“情況下的機率，這句話其實不對，因為“虛無假設為真“情況下，你得到一組特定樣本的機率其實非常小，比如說我隨便抽3個台北市民量身高，得到(173.120485, 162.1358309, 156.86564723907289103)的機率應該非常小，可以說是0。所以，p-value真實的涵義是指：「在虛無假設為真的情況下，進行新的抽樣時，得到一組比目前樣本還更傾向拒絕虛無假設的機率。」
  
  抱歉最近沒注意到有留言，希望有回答道你的問題！
  
  回覆
通告： Kaggle 的過度配適與完美預測─淺談自適性資料分析 – David's Perspective
通告：医学统计学基础概念：P值与可信区间 – 北极星科研札记
ever 說：

2019-08-14 at 15:18:35

想請教您用甚麼繪圖軟體^^ 感激不盡

回覆
1. David Huang 說：
  
  2019-08-18 at 23:12:01
  
  就是一般的 Powerpoint 而已～
  
  回覆

P-值已經死了嗎？莫須有罪名的最大受害者！

假設檢定：Neyman-Pearson Paradigm

P-值：幫助我們決定是否拒絕 $latex H_0$ 的好工具

小結：定義有說的才能，沒說的就不能

About David Huang

11 Comments

發表迴響取消回覆

假設檢定：Neyman-Pearson Paradigm

P-值：幫助我們決定是否拒絕 $latex H_0$ 的好工具

小結：定義有說的才能，沒說的就不能

About David Huang

11 Comments

發表迴響 取消回覆

發表迴響取消回覆