加入好友 登入/註冊
countdown
00 DAY
00 HOUR
00 MIN
本會期刊
台灣急診醫學通訊

第七卷第一期
刊登日期:2024/02/29
Taiwan Emergency Medicine Bulletin 7(1) : e2024070110回上頁

如何用p-value常見誤解執著,來開始一段深入淺出的EBM和生物統計初步對話?(上)

陳冠甫 

基隆長庚醫院急診醫學部

長庚大學智慧運算學院


p值定義:統計的一個測量工具,用來決定觀察到的事件是因為機率而發生的概率

 

        要講p值,就要回到科學的進程:觀察、假設、實驗、再實驗。我們在臨床上採集的實證,不論是臨床試驗、觀察性研究、動物實驗等等,都在不停地做推論(inference)的動作。而在推論的時候,由於每次實驗結果不儘相同,而在生物醫學上,由於個體的差異性,常常等於是在做採樣(sampling)的動作,而因著採樣的結果來做的推論,又被稱為統計推論(statistical inference)。我們兩年一次的選舉,常常看到的民調結果,需要有統計學的推論,來判斷那個候選人贏面大,就是從這個的推論得來的;相對來說,開出票了就也不需要再有統計推論了。

 

在這過程中,p值是一個我們經常遇到的術語。但對於許多人來說,p值的真正含義可能仍然是個謎。讓我們通過一個前測來揭開p值的一些神秘面紗。

 

前測一:

關於統計推論Statistical inference:

對於p = 0.051判讀,下列何者錯誤?

1. 虛無假設為真,觀察到當前結果(或更極端)的機率有多大(虛無是啥?)

2. 無法推翻虛無假設(不能投稿了哭哭?)

3. 結果符合某個機率分佈的機率(繞口令嗎?)

4. 結果比p=0.049多了0.2%的顯著水準

5. 以上皆非

 (正確答案在文末)

 

        p值檢定最開始的使用和定義,就是檢定在一個模型(或分佈)之下,實驗(或採樣)出來的結果符不符合這個模型的資料分佈。而由於要科學上常要推翻舊的假設,這個被檢定的分佈模型,我們就把它叫做虛無假設。科學家希望實驗的結果,是推翻處無假設,到對立假設的分佈(alternative hypothesis);這也就是從p值到統計推論的串連,雖然大家讀論文時常看到p值,但要記得回頭想想研究著的推論是什麼,現在我們是在檢定什麼假設。

 

        進一下談,在傳統/古典頻率統計學派(Frequentist)的分析進行,我們按照得到的結果,在假定應該在的分佈中取得p值以後,進一步作統計檢定。在檢定時,我們會(相約成俗地)設定一個顯著水準α,而這個相約成俗的α值通常都是0.05,也就是20個容忍有一個和別人不一樣的顯著水準,而有時候大家會嚴格一點用0.01,比較不嚴格則用0.10。那如果我們使用的的α = 0.05,而像上述的p > 0.05,我們就無法拒絕虛無假設,並宣稱這個檢定在統計上是不顯著的,這是傳統的p值檢定方法。如果統計上顯著的話,我們就認為得到實驗結果的機會很小,所以就不接受虛無假設。所以看倌讀到問題了嗎?0.0490.051只差了0.2%,但因為約定俗成的0.05成為了一個閾值,就會有顯著和不顯著的差別了,這樣真的科學嗎?

 

        你不孤單的,這個在統計上的爭議,需要講到貝氏統計學派 (Bayesian)和頻率統計學派長久以來的爭議,而熟悉實證醫學的你,一定發現這邊談到了貝式這個實證醫學必教必學(也許每次也必聽不懂)的名詞,真的要聊可以聊很久(下次再找篇幅寫),先給一個小結論,就是貝氏統計是看不到p值的,只有以事後機率來做推論,而貝氏定理(Bayes' theorem)是應用條件機率推導。

 

另外給大家介紹一下2016 美國統計學會ASA 關於P值的指導原則:

 P值可以顯示數據與特定統計模型的不相容程度。

 P值並不衡量研究假設為真的機率,或者數據僅由隨機機會單獨產生的機率。

 科學結論和商業或政策決策不應僅基於P值是否通過特定的閾值。

 正確的推論需要全面的報告和透明度。

 P值或統計顯著性,並不衡量效應的大小或結果的重要性。

 單靠P值本身並不提供一個好的模型或假設的證據度量。

 

啊,太數學和理論了嗎?別急,下期就進到p-value常見誤解,更有趣囉! 不過我們再來進行第二個前測吧!

 

前測二:

關於p-value常見誤解:

對於p值判讀,下列何者正確?

1. 健保資料庫研究的p值都很小,是很有效力的研究資源,得到的結果比一般單中心研究可信

2. 浩鼎案為解盲以後,發現試驗的p值不顯著,所以該藥就沒有價值了

3. Saline versus Albumin Fluid Evaluation (SAFE) Study研究,子族群得到的Albumin可能在敗血性休克有效的結果,應該要小心評估這樣得到的p

4. 以上皆是

 (正確答案下期公佈)

 

啊,我們超過通訊限定的1500字了,所以你若是對這些原則有興趣,記得下一期再找找急診通訊裡的公衛專欄囉!

 

前測一解答:(4)

回上頁