向科技巨頭學習:資料科學家必追的技術部落格

by 好豪
Published: Updated:

資料科學的世界瞬息萬變,每一天都會冒出新的工具、分析方法、或是演算法應用,為了讓自己的腦袋能跟得上時代,不只是需要扎實的統計學與程式設計基礎,持續學習、保持對業界新技術應用的關注是至關重要的!閱讀技術部落格,正是讓自己更新資料科學知識的好方法。也有許多業界闖蕩的 前輩 都提過,閱讀技術部落格對於職涯很有幫助。

說起資料科學技術部落格,大家可能先想到 KDnuggetsTowards Data Science,但我個人更偏好閱讀各大科技公司自己經營的部落格,它們都是由該公司的員工—也就是有第一線實戰經驗的真正強者—所撰寫的文章,有什麼知識會比他們的第一手經驗更寶貴的呢?

這篇文章將與你分享我持續在追蹤、並且認為好讀又實用的資料科學技術部落格,每個部落格也附上一篇我讀過的好文章推薦,幫助你省去瀏覽(與拖延)、馬上點開學習新知。

筆者好豪的全部珍藏都在這裡了,現在看不完沒關係,推薦你先加入書籤、收進我的最愛,方便你長期持續關注最新趨勢!



資料科學家必追蹤的技術部落格

Indeed Engineering Blog

Indeed 是幫你搜尋職缺的平台,其搜尋引擎跟推薦系統演算法技術應用許多資料科學與機器學習技術。它們分析刊登的職缺描述、應徵者的資訊、加上搜尋的內容,客製化地為應徵者推薦職缺,也幫企業媒合到需要的人才。

Indeed 的技術部落格 會介紹他們設計平台的技術細節,主題包括資料工程、機器學習、推薦系統等等,我們能從他們的第一手資料認識設計大型搜尋引擎的方法、還有基礎建設可能遇到什麼挑戰。

推薦閱讀:Building a Large-Scale Machine Learning Pipeline for Job Recommendations,想知道「從零開始設計一個推薦系統」該考慮什麼?這篇幾乎都提到了。


Booking.com Data Science

現在要出門旅遊,網路訂房已經是大多數人熟悉的挑旅館管道,Booking.com 是知名的訂房服務佼佼者,他們會用大量訂房資料來預測訂房趨勢變化、最佳化定價策略、並且客製化推薦你會喜歡的旅館類型,透過機器學習來提升用戶體驗。

Booking.com 的 booking.ai 部落格 在資料科學的知識含量超級豐富,主題包括推薦系統、異常偵測、還有筆者好豪熱愛的 因果推論A/B Test,可以說是我最喜歡反覆拜讀的技術部落格之一。

推薦閱讀:Uplift Modeling – From Causal Inference to Personalization,入門教學因果推論如何用在個人化推薦問題,作者還提供講座影片,超佛心。


Netflix Tech Blog

大家都知道 Netflix = 追劇,不用介紹這間公司了吧!

Netflix 部落格 介紹它們設計串流平台的技術背景,想知道大量影片串流會遇到什麼技術問題以及怎麼解決?想知道 Netflix 到底怎麼透過資料猜出你下一部劇想看什麼?關注這個部落格準沒錯。

Netflix 還有與 Data 技術相關的 YouTube 頻道,許多公開演講介紹資料平台設計、ETL、還有數據分析方法等等,十分值得一看。

推薦閱讀:Building In-Video Search,Netflix 快速創造短影音與精彩預告片的秘密武器—讓影片片段可以透過文字搜尋,又酷又實用!


Spotify R&D | Engineering

Spotify 應該也是不用多介紹,是超知名的音樂串流平台,以資料科學方法分析使用者的聆聽習慣、創作智慧播放列表、還有我最喜歡的功能—幫助我發現我會喜歡的新歌。

(筆者好豪此生最愛的女歌手—Aimer,正是透過 Spotify 的推薦認識的)

Spotify 的技術部落格 的工程相關主題包山包海,行動裝置體驗、開發工具、資安等等都有,而他們的資料科學主題之中,我私心熱愛、並且花超多時間拜讀的是 A/B Test 相關文章,非推薦不可的是介紹它們實驗平台為何需要 Sequential Test 的這一篇:Bringing Sequential Testing to Experiments with Longitudinal DataSequential Test 入門中文教學)。

再一篇推薦閱讀:What made Discover Weekly one of our most successful feature launches to date?,介紹「每週新發現」功能到底怎麼來的,這篇輕鬆好讀。


Wayfair Tech Blog

Wayfair 是美國的家具電商,運用資料的範疇包括個人化的網站使用者體驗、產品推薦、還有供應鏈與存貨管理。

Wayfair 的技術部落格 除了可以學到電商以及零售業的產業洞見以外,我很喜歡他們會特別強調 MLOps 與資料科學如何真正幫助企業成長,他們的文章通常篇幅不長,不會大量著墨技術細節,可以快速理解數據提供的 商業價值,很適合當作休閒讀物。

推薦閱讀:Aspect Based Sentiment Analysis Helps Customers Easily Find “Long Tail” Products,更精練的情緒分析,讓系統不只是推薦最熱門品項、而是最適合客戶的產品。


Airbnb Engineering – Data Science

Airbnb 是個短期出租房屋或房間的網站,以 共享經濟 的概念,屋主可以更有效率地運用自己的房產、而旅行者可以很方便地隨時找到世界各地的房源。

Airbnb 工程部落格 的資料科學文章其實沒有很多,但筆者好豪覺得每篇都是重要實戰應用議題,尤其可以看到他們早在 ChatGPT 發表以前就有超多 AI 應用,走得很前端。更別說這些部落格短文還會延伸到他們在 學術界 的發表,含金量超高!

推薦閱讀:When a Picture Is Worth More Than Words,圖片相似性怎麼做、以及這項技術如何提升 Airbnb 的顧客體驗。


Analytics at Meta

這是由 Meta(也就是 Facebook)的資料專家經營的部落格,如其名,絕大部分內容專注在數據分析(Analytics),像是指標定義、A/B Test、KPI 設定等等,這些正是我目前職涯持續鑽研的主題,所以我每篇都超認真看。

此部落格 還有多篇職涯發展建議的文章,想知道擔任產品分析師或數據分析師,該怎麼在外商科技業生存及升遷,當然非讀不可。

推薦閱讀:Four Analytics Best Practices We Adopted,好的分析習慣才有好決策,Meta 資料科學家都這麼做—那我們肯定該好好學一學。


Eppo Blog

Eppo 是幫助企業建置 A/B Test 商業實驗的服務。老實說,筆者沒實際用過 Eppo 的產品,不知道好不好用,但是它們為了推廣自己的 A/B Test 平台,在 自家部落格 寫了超多 A/B Test 文章,有深入探討技術的、有關於實驗指標設計的、還有關於團隊的實驗文化如何建立的文章,只要你對 A/B Test 有一點興趣,你絕對會發現這裡是商業實驗知識寶庫。

推薦閱讀:Experimentation Gets AI to the “Real World”,我們都知道 AI 超酷,但這些酷東西到底對你的客戶有沒有幫助,終究需要 A/B Test 給你答案。


Linkedin Engineering Blog

LinkedIn 是屬於專業人士的社群平台,在 LinkedIn 不只幫助你更容易與各界前輩建立連結,也是尋找職缺、還有展現自己專業能力讓其他公司發現你的好地方。

LinkedIn 工程技術部落格 可以學到很多它們設計關鍵功能的背景故事,例如「你可能認識…」就是一個經典的推薦系統設計案例。其他還有數據實時串流、虛假訊息與帳號辨識、還有機器學習演算法的使用者體驗回饋驗證,LinkedIn 有許多技術經驗都在業界算是教科書等級,我在與其他資料科學家交流的過程中經常討論到,這正是我會樂此不疲拜讀此部落格的主要理由。

推薦閱讀:Evaluating the success of consumer generative AI products,生成式 AI 不能只是酷炫而已,看 LinkedIn 怎麼結合質化與量化資料衡量 GenAI 產品的成功。


DoorDash

說到美食外送服務,台灣人最愛的平台可能是 Uber Eats 或者 Foodpandas,而在美國市占率最高的美食外送平台是 DoorDash

DoorDash 技術部落格 跟資料科學相關的文章,內容多元、我看起來並沒有特定主題,筆者好豪自己最喜歡它們跟指標設計、因果推論、還有 A/B Test 有關的文章,尤其某些 A/B Test 論文一時看不懂的時候,我就會來翻翻 DoorDash 的實驗應用案例,幫助自己快速理解。

推薦閱讀:Improving Online Experiment Capacity by 4X with Parallelization and Increased Sensitivity,想加速 A/B Test 的速度有哪些挑戰、以及 DoorDash 採用的解方。


Lyft Engineering – Data Science

Lyft 是以加拿大與美國為主的叫車、共乘服務公司,提供的服務與 Uber 相似,在美國的市佔率僅次於 Uber。

我對 Uber 運用資料的方式很有興趣,但不得不承認,Uber 自家部落格 分享的內容我很多看不太懂,這就是我會關注 Lyft 技術部落格 的原因,他們持續分享叫車服務會遇到的動態定價、地理資訊運用、還有演算法設計等問題,最重要的是,文風容易理解。

推薦閱讀:What is Data Science at Lyft?,一文概覽叫車服務會遇到哪些資料應用挑戰。



給熱愛硬派學術知識的你

以下這幾個部落格,是各大科技巨頭用來秀肌肉的平台,主要是用來公布公司最新的學術研究,如果你想追求最前沿的新科技,這些學術發表相當值得關注。

Google Research Blog

Research at Meta

Amazon Science

Microsoft Research Blog

其他部落格

這些是我收藏在書籤,但沒有實際看太多篇、還不能完整向你介紹的技術部落格,為了不讓他們成為遺珠,條列在這裡、請你自由探索囉:

結語

追蹤大公司的技術部落格不只是為了學習新知、或者是跟上最強技術的趨勢,更重要的是了解不同產業面對了什麼樣的資料挑戰、還有強者們如何找出解決方案的思考流程。畢竟,資料科學在工作場域不是只有酷東西,更多的是難解的挑戰。

我相信透過閱讀技術部落格,讓自己的知識、技能、還有見識越來越多元,是成為更成熟的資料科學家必經之路。


延伸閱讀:


如果你是熱切關注數據分析與 Python 的資料科學愛好者,容我毛遂自薦、此部落格會不斷更新你需要的新知!歡迎追蹤好豪的 Facebook 粉絲專頁 或是 Threads 帳號,我會持續分享與資料科學有關的任何所見所聞;也歡迎點選下方按鈕,把這些技術部落格分享給同樣熱愛資料科學的朋友們。

推薦閱讀