進行假設檢定時,尤其是業界 A/B Test 的商業實驗場景,究竟該使用單尾還是雙尾檢定呢?有許多人就直接把統計軟體的預設值(也就是雙尾檢定)拿來用,而不知道為何選擇這種檢定方式、也不知道單尾與雙尾檢定到底對決策會造成什麼差異。
這篇文章將簡短說明單尾與雙尾檢定的統計學特性差異,並且探討為何我建議 A/B 測試 要使用單尾檢定,最後介紹單尾檢定常見的錯誤使用方法。希望你讀完這篇文章後,可以清楚了解自己該用單尾還是雙尾假設檢定。
目錄
單尾與雙尾檢定,有何不同?
單尾與雙尾檢定的主要差異,在於你是否相信效果具有方向性
想像一下,你是開發某種癌症新藥品的研究者:
- 在初步研究中,你已經發現此藥品能延長病患的壽命
- -> 相信新藥品將延長(而不是縮短)壽命
- 然而,你還不確定藥品對於血壓、肝指數等等有什麼樣的副作用
- -> 不確定新藥品會造成血壓上升還是下降
此例的壽命以及血壓兩項數值,研究者對於效果是否具有方向性的假設將會不同,單尾與雙尾檢定的選擇也將因此不同。
單尾檢定(One-Tailed Test)是研究者用來預測效果方向性的假設檢定,如果研究者相信新藥品會增加患者的平均壽命,那就該使用單尾檢定。
- 虛無假設:新藥品對患者的平均壽命影響是減少或不變
- 對立假設:新藥品增加患者的平均壽命
相較之下,雙尾檢定(Two-Tailed Test)並不預測效果的方向性,在上例中,研究者不知道新藥品副作用為何、不知道藥品會造成高血壓還是低血壓,此時就該使用雙尾檢定。
- 虛無假設:新藥品對患者的血壓無影響
- 對立假設:新藥品將增加或減少患者的血壓
單尾檢定用在研究者有足夠理論基礎或是經驗來預測效果方向性的時候,反之,如果沒有理論與經驗支持效果的方向性,就該使用雙尾檢定。
單尾檢定與雙尾檢定的選擇,取決於對於研究議題的假設。
從統計學特性來看,單尾檢定的拒絕域只會在分佈的其中一側,雙尾檢定則是在兩側。
比起雙尾檢定,單尾檢定更具有統計檢定力(Statistical Power),在效果真實存在時,單尾檢定更可能成功檢測到;然而,單尾檢定也更可能造成偽陽性錯誤(Type-1 Error)的決策,意思是,當效果實際上並不存在時,仍給出「有顯著性」的結論。
(延伸閱讀:P 值、顯著水準(α
)、或檢定力(1 - β
)背後的共通觀念 – 型一與型二錯誤)
要記牢這些統計學特性,筆者好豪建議你這樣想像:單尾檢定多了一層「已知誰大於誰」的假設,彷彿統計模型已經預先得知一些資訊,因此,單尾檢定要拒絕虛無假設所需要的資訊量會比雙尾檢定少一些,使得單尾檢定更容易拒絕虛無假設(檢定力更高)
A/B Testing 決策,請考慮使用單尾檢定
單尾與雙尾檢定的關鍵差異在於對研究議題的假設。那麼,我們在業界使用假設檢定、尤其是進行 A/B Testing 時,究竟該如何假設?如何選擇單尾與雙尾檢定呢?
在筆者好豪的經驗裡,A/B Testing 商業實驗通常會先考慮使用單尾檢定,原因有二。
首先,我們使用 A/B Test 的目的當然是希望產品的品質越來越好,我們自然而然會假設新的產品設計會讓品質提升,基於這項假設,顯然該使用單尾檢定來檢視 A/B Test 數據。此外,設計產品的過程中通常會有理論與經驗支持我們提升產品品質的這項假設,例如,產品經理會引用使用者經驗(UX Design)研究報告來佐證使用者有很大可能會喜歡新設計。
第二項理由和決策方法有關,資料科學家進行 A/B 測試是為了回答「是否」採用新的產品設計,而只有單尾檢定才能回答這個問題!
回顧一下,雙尾檢定的對立假設是「數值提升或下降」,而單尾檢定的對立假設是「數值提升」。如果你在 A/B Testing 使用的是雙尾檢定,即使得到有顯著性的結果、拒絕了虛無假設,統計學上的解讀會是:「產品品質更好或是更壞了」,其中包含「更壞」這個可能性,這樣 … 還該採用新設計嗎?
相較之下,如果你在 A/B Testing 選擇使用單尾檢定,其對立假設在統計學的解讀是:「產品品質更好了」,只要從資料得出有顯著性的結果、拒絕虛無假設,我們就能無異議地採用新設計了,讓統計工具與決策方法邏輯一致。
先看數據再決定?大錯特錯
看到這裡的你,或許會對上述的第二項理由有疑惑:雖然雙尾檢定的對立假設包含產品品質更好與更壞兩種可能,只要做完檢定後,從資料裡面比大小,不是還是可以簡單看出數值究竟是提升還是下降嗎?
這麼做乍聽之下合理,卻是有偏誤的統計分析流程。這項作法只是「表面上」是雙尾檢定,但實際上等同於:先看數據是變大還是變小、再使用單尾檢定。而先看數據特徵,再選擇該用單尾還是雙尾檢定,會對你的決策造成偏誤!
進行 Z-Test 或是 t-Test 假設檢定,是在比較兩組數值是否有大小差異,不知道該選單尾還是雙尾檢定時,我們能不能先簡單比較兩組數值誰大誰小,再決定該用單尾還是雙尾檢定呢?答案是不行!以下這部 StatQuest 影片,進行了一個小實驗證明了這一點:
如果我們從同一個資料分佈抽樣出兩組樣本,這兩組樣本的平均數照理說應該幾乎一樣,對吧?然而,因為隨機性造成的抽樣誤差,兩組樣本還是有可能產生不小的差異,又由於我們通常將顯著水準設定為 0.05,如果在同一個資料分佈反覆抽樣出兩組樣本,並進行雙尾的 t-Test 比較大小,有 5% 的時候,統計工具仍會告訴我們兩組樣本有顯著的大小差異,即使我們早就知道兩組樣本根本來自同一個資料分佈!
換句話說,這些反覆進行的假設檢定每次獲得的所有 P-Value,將會呈現均勻分布,也就是恰好有 5% 的 P-Value 數值會小於 0.05。
(此流程稱為 A/A Test,如果你還看不太懂上述這段說明,歡迎參考好豪之前寫過的 A/A Test 教學)
上述的做法都是基於雙尾檢定,而 StatQuest 的影片 則是做了微調:
- 先看兩組資料大小差異
- 如果看得出來某一組資料可能比較大,就改用單尾檢定
- 如果看不出來,仍使用雙尾檢定
而根據實驗結果,這個調整過的檢定流程,P-value 不再是均勻分布,P-value 小於 0.05 的比率將會提高,換言之,偽陽性錯誤(Type-1 Error)提升了!
分享這項小小實驗的目的是要提醒你,在看到資料之前,資料科學家就該要基於對於研究議題的假設,選擇好該使用單尾還是雙尾檢定,而不是先偷看資料,再基於資料特徵選擇檢定方式!否則,將會造成更多決策偏誤。
結語
實務上,在能夠取得大量數據的情況,單尾跟雙尾檢定得出的結論大部分時候會相同,資料夠多時,很少出現只有單尾檢定顯著、而雙尾檢定不顯著的情形。然而,單尾或是雙尾檢定的統計學特性差異,依然會影響我們的資料科學決策邏輯,因此,我們作為資料科學家不得不仔細掌握這些知識。
在這篇文章,我們從效果的方向性探討單尾與雙尾檢定的差異,也建議你在進行 A/B Testing 時多考慮使用單尾檢定,最後也強調,單尾與雙尾檢定必須在看到資料前就做好抉擇,避免你的決策反而變得更加不可信。
參考資料:
- 《資料科學的統計實務》
- YouTube: StatQuest – One or Two Tailed P-Values
- 12 myths about one-tailed vs. two-tailed tests of significance
你正在學習假設檢定與 A/B Testing、還想知道更多相關知識嗎?推薦你繼續閱讀我的 A/B Testing 教學系列文章:
- A/B Testing:「偷看結果」將成為最大的錯誤
- A/A Test:商業實驗不能忘的前置動作
- 卡方檢定一篇看懂,白話介紹三種檢定方式
- 比例資料的 A/B Testing 該用卡方還是 Z 檢定?
- A/B Test 看到顯著也不能信?小心統計檢定力不足!
如果這篇文章有幫助到你,歡迎追蹤好豪的 Facebook 粉絲專頁 與 Threads 帳號,我會持續撰寫 A/B Testing 與資料科學的知識文章;或者點選下方按鈕分享給需要的朋友們。