身為一名資料科學家,每次討論到 t 檢定與中央極限定理,學生與同事常會問起關於常態分佈的問題,這個看似簡單的概念,卻常常讓初學者感到困惑。
在這篇統計學習筆記,我將連結常態分佈、t 檢定、以及中央極限定理這三個重要觀念,白話地幫你解答常見疑問:
- 為什麼常態分佈這麼重要?
- 資料一定要常態分佈才能用 t 檢定嗎?
- 中央極限定理到底是什麼?為什麼我需要知道它?
- 為什麼大家都說分析的樣本數需要大於 30?
- 到底怎麼判斷該不該使用 t 檢定?
- 劇透:要是你現在沒時間看完文章,在 這個小節 會給你一張圖的超級懶人包
如果你是剛開始修統計學課程的同學、或是出社會一陣子快把統計學忘光的從業人員,我相信這篇文章將能深入淺出地幫你搞懂統計學課本究竟在講什麼、並破除種種迷思,讓你對「常態分佈」關鍵字不再害怕!
目錄
常態分佈為什麼這麼重要?
因為統計學課本每一章都會提到常態分佈,考研究所的考卷也一定會出現。
(˚∀˚)
常態分佈(Normal distribution),又稱高斯分布(Gaussian distribution),是一個非常常見的連續機率分布。它的圖形呈現左右對稱的鐘形,中間高、兩側低,代表大部分的數據集中在平均值附近。人類的身高與體重就是呈現常態分配的範例。
為什麼常態分佈重要呢?
- 常態分佈是許多統計方法的基石,t 檢定、ANOVA、迴歸分析等,都包含跟資料呈常態分布有關的假設
- 常態分佈也是許多其他分佈的基礎。例如卡方分佈、F 分佈等,都是從常態分布衍生而來的
- 常態分佈可以幫助我們理解資料的分散程度,用標準差來衡量資料都離平均數多遠
- 延伸閱讀:徹底搞懂標準差跟標準誤有何不同
雖然知道很多統計方法都包含常態分佈的假設,但這個「常態分佈假設」實際上到底是什麼意思?以下我們就以 t 檢定為例來探討。
t 檢定:資料一定要常態分佈?
t 檢定 是不論在學校跟資料科學實戰都極為常用的統計方法,用來比較兩個樣本的平均數是否有顯著差異。
(補充:本文介紹的都是 Student’s Two Sample t-Test)
舉例而言,想像你有一袋蘋果,你想知道這袋蘋果的平均重量是不是跟另一袋橘子的平均重量一樣,而你的磅秤很不幸地放不下一整袋水果。這時,你可以隨機抽取一些蘋果來稱重,然後用 t 檢定來比較兩個平均數。
在筆者的工作經驗中,A/B 測試 就是整天會用到 t 檢定的場景,用來比較實驗組和對照組的數據平均是否有差異。
當然,統計方法不能瞎用。使用 t 檢定時,必須符合它要求的特定假設,你的分析結果才有效。t 檢定最重要的三大假設包括資料獨立抽樣、各組資料分散程度相同、以及常態分佈。在此,我們聚焦在第三項假設:
t 檢定假設兩個樣本都來自常態分佈的母群體
由於 t 檢定的公式是基於常態分配推導出來的,所以需要這項假設。也因為大家都知道這個假設存在、又不完全理解這項假設的意涵,筆者已經數不清被問過幾次這個問題:
有超多資料根本不是常態分佈
如果資料不是完全常態分佈,還可以使用 t 檢定嗎?
常態分布雖然在自然界和社會科學中很常見,但並不是所有資料都符合這個分布。身高、體重這些生理特徵,以及許多測量誤差,都可能呈現常態分布。但收入分布、疾病發生率等,往往是偏態分布(Skewed),例如以下圖片是美國人 2014 年的家庭收入分佈資料,很顯然不是左右對稱的鐘型曲線,它不是常態分佈:
如果遇到像上圖一樣的情形,資料不是完全常態分布,還能用 t 檢定嗎?
答案是:可以,因為 t 檢定的假設是要求樣本平均數必須是常態分佈,而不是要求原始資料本身常態分布。
接下來透過中央極限定理,你將會深入了解這項解釋的意義。
中央極限定理:關鍵字是「平均數」
中央極限定理(Central Limit Theorem, CLT)告訴我們:當樣本數夠大時,不論原始資料(母體)分佈是什麼樣子,樣本平均數的分佈都會趨近於常態分佈。
擲骰子是一個簡單的範例,擲一次骰子得到點數的分配不是常態分配、而是 均勻分配,換言之,雖然從機率學知道擲骰子獲得點數的期望值是 3.5,但我們會預期擲一次骰子離 3.5 很遠是正常的。
然而,如果我們擲很多次骰子,將所有結果取平均,那麼我們會預期這個平均值(樣本平均數)很接近骰子的期望值 3.5。擲一次骰子得到的結果不是常態分佈,但擲很多次骰子得到的平均數結果就會是常態分佈。
我認為理解中央極限定理最核心的關鍵字正是「平均數」,也就是搞清楚到底是誰會接近常態分佈。中央極限定理說明,只要樣本數夠多:
- 原始資料不一定要是常態分佈
- 樣本平均數也會接近常態分佈
常見迷思:樣本數夠大,資料就會趨近常態分佈?
不是!這是中央極限定理常被誤解的解釋方法。
中央極限定理說明的是:當樣本數夠大時,樣本平均數的分布會趨近常態分布,但原始資料依然是資料原本的樣子,當然不會因為我們做了統計分析、就改變資料分佈啊!
- 錯誤解讀:樣本數越大,資料就會越趨近常態分佈
- 正確解讀:樣本數越大,樣本平均數就會越趨近常態分佈
請別抱怨統計學課本咬文嚼字、字斟句酌了,我相信讀到這裡的你一定也同意:只差幾個字,分析的解讀會天差地遠。
t 檢定與常態分布:真相大揭密
回到前面提過的問題:資料一定要常態分布才能做 t 檢定嗎?現在你更熟悉中央極限定理了,會發現 t 檢定變得超好懂。
t 檢定假設樣本的平均數是常態分佈
它並不需要假設原始資料(母體)是常態分佈
因此,當我們使用 t 檢定來進行統計分析,必須確保樣本的平均數是常態分佈,這正是中央極限定理來救援的地方,再複習一次,中央極限定理說:樣本數夠大時,樣本平均數會趨近常態分佈。再換句話說,中央極限定理的作用使得 t 檢定在一定程度上不受原始資料分布的影響,只要樣本數夠大,就能運用中央極限定、達成 t 檢定要求的常態分佈假設。不過 …
中央極限定理一直說樣本數要夠大
究竟樣本數要多大才算是「夠大」?
你或許聽過「n > 30
才是有效統計分析」的說法,樣本數大於等於 30 是最常見的經驗法則,很多教科書和統計軟體都會採用這個標準,當樣本數達到 30 時,樣本平均數的分布「通常」已經可以近似為常態分布。
給進階讀者的囉唆補充(入門讀者可略過):
t 檢定量(t statistic)確實要求原始資料(母體)是常態分配、而不只是樣本平均數常態分佈。這在任何一本統計課本的 t 檢定推導過程可以看出來(參考:亞利桑那大學的講義),所有 t 檢定推導的第一步都是從常態分佈開始的。本文提及 t 檢定假設是「樣本平均數」的常態分佈,是想強調中央極限定理發揮作用時,t 檢定依然穩健(Robust),即使母體分配不是常態分佈、也能合理地控制 Type-I & Type-II Error,用一些簡單程式做蒙地卡羅模擬都可以看出來(R 語言模擬範例)。
我們的討論還沒結束!至此,我們的問題又多出了兩個分支:
- 樣本數不到 30 的小數據,能不能做 t 檢定?
- 樣本數只要超過 30,就一定能用 t 檢定嗎?
小數據「有條件地」可以用 t 檢定
樣本數不到 30 的小數據,可以使用 t 檢定,但是有條件必須滿足:原始資料的分佈接近常態分佈。
剛剛不是一直說 t 檢定假設的是「樣本平均數」常態分配、而不是原始資料要常態分配嗎?這裡怎麼又變了?
其實沒有變,道理很簡單,t 檢定假設樣本平均數是常態分佈,要是原始資料原本就是常態分佈(例如人類的身高體重),那就算樣本數只有 1,這個抽樣的「樣本平均數」分佈也會符合常態分佈。t 檢定仍舊是要求樣本平均數常態分配、沒有變。
因此實務上,在小數據 n < 30
的情境,我們必須先檢驗樣本資料是不是常態分配:
- 如果樣本是常態分配:我們推論原始資料是常態分配,樣本平均數當然也是常態分配,可以用 t 檢定
- 如果樣本不是常態分配:t 檢定的假設不符合、不能使用 t 檢定
- 這時可以改用無母數方法,例如 Wilcoxon test
樣本是否為常態分佈,可以用 Q-Q Plot 來檢驗並判斷,我在 這篇 Q-Q Plot 教學文章 有詳細的圖文與程式碼介紹。
數據多「不保證」可以用 t 檢定
n > 30
並不是黃金標準,它不會永遠保證 t 檢定的常態分佈假設會符合。在某些情況下,尤其是當母體分布嚴重偏離常態分布時,可能需要更大的樣本數,原始資料分佈越是偏離常態分佈、需要的樣本數越多(為了讓中央極限定理能發揮作用)。
很遺憾地,「樣本數需要多大」這個問題至今沒有標準答案,例如在這個 統計學討論區的貼文,對於樣本數 37 究竟是否足夠,來自許多專家的正反雙方意見爭持不下。我相信這個爭論只會發生在樣本數離 30 太近的情境,在筆者好豪個人的職場經驗、尤其是分析電腦與手機軟體類型產品時,通常可以輕易地搜集到上百、上千的樣本數,讓我能直接假設數據夠多、放心地使用 t 檢定。
究竟該不該用 t 檢定?
從常態分佈、到中央極限定理、最後是 t 檢定,這篇文章討論的種種細節,如果你一次記不起來、也沒關係,我在這裡整理了一張行動指引圖表,總結了這篇文章所有重點、幫助你更容易記得:
結語
常態分佈是一個非常基礎但又容易被誤解的概念,只要把各個知識點連結起來,其實沒那麼複雜。日常工作與研究要使用 t 檢定前,要確認能否符合「樣本平均數為常態分佈」的假設,而不論原始資料分配為何,在樣本數夠多時,中央極限定理告訴我們樣本平均數會是常態分佈,也就能合理地使用 t 檢定了。
希望這篇文章能幫助大家更深入地了解 t 檢定、中央極限定理、與常態分佈之間的關係。如同文章中提及的,相關的統計學領域還有很多懸而未解的研究問題,我也在此列出參考資料、讓有興趣的你閱讀,你會發現這些看似簡單的議題、還藏著很多眉眉角角值得我們思考:
- 樣本數小於 30 還能 t 檢定嗎?
- 樣本數大於 30 代表什麼意義?
- 如何決定該用無母數方法還是 t 檢定?
- 樣本數大、但原始資料不是常態分佈時,該改用 Wilcoxon test 嗎?
- Seeing Theory:超讚的統計觀念動畫網站
《資料科學的建模基礎 – 別急著coding!你知道模型的陷阱嗎?》(博客來連結)
你正在研讀統計學、或者剛開始學假設檢定嗎?筆者好豪喜歡用白話與圖解的方式介紹統計學知識,我相信以下這些文章你也會有興趣:
如果這些文章對你有幫助,歡迎追蹤 好豪的 Facebook 粉絲專頁 與 Threads 帳號,我會持續撰寫資料科學知識相關文章與你分享!