快轉到主要內容

data-science

卡方檢定的三大實戰使用時機:A/B 測試、分類模型、特徵選擇
data-science ab-testing data-analytics statistics
卡方檢定(Chi-square test)是分析類別型資料時最常用的無母數統計方法,這篇文章介紹資料科學家不得不知道的三大卡方檢定使用時機:多組別的 A/B 測試、評估二分類模型、以及機器學習模型特徵選擇,幫助你理解如何將卡方檢定應用於自己的研究和分析中。
向科技巨頭學習:資料科學家必追的技術部落格
data-science data-analytics machine-learning self-taught
透過閱讀技術部落格,讓自己的技能與見識更多元,是成為更強的資料科學家必經之路。這篇文章整理了所有大科技公司所撰寫、好讀又實用的資料科學技術部落格,也附上我讀過的好文章推薦,你不用再苦苦尋找新趨勢的資訊來源,可以馬上點開網站學習新知。
棒打出頭鳥:L1 與 L2 正規化防止模型中的係數過大
data-science machine-learning statistics
L1 與 L2 正規化(Regularization)透過避免模型中的係數過大,減緩機器學習模型的過度擬合(Overfitting)問題。L1 的絕對值懲罰項具有稀疏性,適合需要特徵選擇與可解釋性的模型;L2 的平方值懲罰項有更高的穩定性,適合解決共線性問題。
型一與型二錯誤介紹,圖解快速學習!
data-science data-analytics statistics
你是否有看過,某些研究明明展現顯著的結果,後來仍可能被推翻?這種「虛驚一場」來自型一錯誤與型二錯誤(Type I Error & Type II Error)。如果你還無法搞懂 P 值、顯著水準、或檢定力,型一與型二錯誤正是它們共通的重要觀念,這篇文章將用圖示讓你輕鬆理解!
SQL 窗口函數 Window Function:三大應用快速教學
data-science featured sql data-analytics
SQL 的 Window Function 窗口函數是對表格的其中「一小塊」幾列資料進行運算,讓你當下的資料可以參考其他列資料,超方便的應用包括計算資料佔比、時間間隔、移動平均數等等。這篇教學將讓你在 2 分鐘內快速認識 SQL 窗口函數好用之處,學會這項資料科學家必備技能!
卡方檢定一篇看懂,白話介紹三種檢定方式
data-science data-analytics statistics
卡方檢定(Chi-squared Test)是用來分析類別型資料的統計方法,用來評估類別變數之間的關聯性。這篇文章將用數據範例白話介紹列聯表資料以及三種最常見的卡方檢定:配適度檢定、獨立性檢定、同質性檢定,也教學如何用 Python 的 Scipy 套件來實作。
pyforest:只用一行程式碼 import 所有資料科學常用的 Python 套件
python data-science python
pyforest 是個有趣的 Python 資料科學套件,只需要一行程式碼、就能一次 import 超過三十個熱門套件,幫助我們省了很多反覆寫好幾行 import 的工夫。如果你是會反覆塗改程式碼的資料科學家,這個 pyforest 套件非常值得你學來用用看。
ROC 曲線上的最佳閾值:Youden Index 與圖解法介紹
data-science kaggle data-analytics machine-learning statistics
這則資料科學筆記將分享 3 種在 ROC 曲線上選擇最佳閾值的方法,包括 Youden’s J statistic、最近距離法、還有一種用肉眼就能看出最佳閾值的平行線判別法。讓你學會這些方法後,下次再看到 ROC 曲線時,一秒內就能掌握最佳閾值!
圖解 ROC 曲線:精通 ROC 與 AUC 用法、輕鬆記熟定義
data-science data-analytics machine-learning statistics
這則筆記將分享 ROC 與 AUC 的大量圖解。本文將先說明 ROC 曲線幫我們在分類問題解決什麼痛點、真陽性率 TPR 與偽陽性率 FPR 的拆解記憶法、最後用圖像連結介紹 ROC 與 AUC 之間的關聯性。相信你讀完將再也不會忘記 ROC 曲線、TPR、FPR 的定義!
A/B Test 樣本數究竟該怎麼算?公式與 Python 算法通通學會
data-science ab-testing featured python data-analytics statistics
A/B Test 要多少樣本數才夠?是什麼會影響所需樣本數?要用什麼數學公式來算樣本數?這則筆記將一次為你解答,不只說明樣本數計算的公式與假設、用 Python 如何計算,也將介紹「為什麼」這樣算的統計直覺,讓你不再害怕被其他人問「到底為什麼樣本數要這樣算?」。