加上數據,就能一臉正經地鬼扯?—《數據的假象》

by 好豪
Published: Updated:

我們身處一個非使用數據不可的資訊時代,從生活到職場都是,你如果要應徵任何跟商業稍有相關的工作,履歷表上如果不寫自己懂「數據分析」,可能連面試的機會都沒有。

人們越來越知道數據分析的好處,許多決策都要導入資料與量化方法,然而實際上,我們對資料的需求快速擴張,但資料科學的教育並不見得有跟上腳步,太多人只是盯著數據資料圖表指手畫腳,卻根本不知道怎麼理解與懷疑數據背後的脈絡,很悲慘地,毫無科學思考的數據分析其實只是—鬼扯

《數據的假象》是一本帶領我們遍覽數據鬼扯的書,我將在這則筆記寫下到底這世上為什麼數據鬼扯如此氾濫,認識數據鬼扯的成因、我們才更知道該如何避免自己也成為拿數據鬼扯的人。

《數據的假象》的兩位作者毫不掩飾
只要是無意義的數據分析,他們都會直接稱為鬼扯(Bullshit)
(圖片來源:Pixabay

不易被打敗的數據鬼扯

如果用華麗詞藻堆砌出的是我們印象中的典型鬼扯,那麼透過數字、圖表、或者統計學包裝出的假資訊,可以說是現代的新型鬼扯。駭人的是,新型鬼扯加上數據後,莫名變得貌似很有說服力,讓一般人反而變得不敢輕易質疑。

來試試看,看到以下這句話,你的想法是什麼呢?

「愛貓人士比愛狗人士更有賺錢頭腦!」

如果你是熱愛狗的狗派,肯定會跳出來、馬上生出各種理由反擊,像是:愛狗的人都比較熱情,熱情與善於交流都是投資與創業的重要特質,賺錢腦袋怎麼可能輸給貓派!

但要是,剛剛那句話變成:

「利用台北市政府公開資料,我們控制重要人口變因後、依照職業別進行顯著水準 5% 的假設檢定,60 種職業類別的其中 21 種,有飼養貓的平均年薪顯著高於有飼養狗人士的平均年薪。」

這段話光是能耐心看完就已經是奇蹟了,哪有力氣反駁它的論點?更別說要探究它的統計分析方法到底有沒有道理。人們通常只會濃縮成一句過度簡化的結論:從它說的數據看起來,愛貓的人好像真的比較會賺錢。(本例純屬虛構)

我才不在乎愛貓跟愛狗人士誰更會賺錢
反正我就是覺得貓貓可愛 (´・ω・)
(圖片來源:Pixabay

驗證數據的真實性並不容易,因此數據鬼扯不易被打敗。《數據的假象》在書中整理出了以下的定律:

反駁鬼扯所需的力氣,是製造鬼扯所需力氣的十倍

布蘭多里尼定律 – 義大利軟體工程師 Alberto Brandolini

筆者好豪認為因果關係就是一個容易被鬼扯、又很難推翻的典型例子。如果你在新聞標題上看到「研究顯示,罹患自閉症與注射麻疹疫苗有關」,你心中會不會偷偷下個結論:「我不敢再打麻疹疫苗了!」?但是,這則標題並沒有寫出具體而言相關性是透過什麼數據計算出來的、不知道相關性有多強,此外,標題也只寫了相關性、它並不代表疫苗造成自閉症的因果關係!

(延伸閱讀:科學家如何分析因果關係?

寫出容易令人誤會的新聞標題很簡單,而光是要想該懷疑什麼數據就已經很費力了,更別說要勞心勞力動手驗證數據的真偽。更恐怖的是,隨口說出一句跟數據有關的鬼扯根本不需要什麼腦袋,但要反駁這句鬼扯,卻需要很多聰明人用科學方法才能達成!

一個蠢蛋能扯出的鬼話,超過你希望能夠駁斥的量

法內利定律 – 義大利部落客 Ureil Fanelli

鬼扯傳得比真相快多了

數據鬼扯很好產生、又難以被打敗,它還很容易傳播

假話秒傳千里,真相姍姍來遲

諷刺文學作家 Jonathan Swift

數據的鬼扯與假消息,可以飛快地滲透普及到全世界。在 Facebook、Dcard、Instagram 這些社群媒體平台蓬勃發展的時代,全球各個角落發生的每則奇聞軼事,都會毫無延遲地呈現在你眼前,也正是因為取得與散播資訊太過容易,一天有幾千則消息映入眼簾,我們怎麼可能費力氣去懷疑、怎麼可能花時間想哪則消息是真、哪則消息是假呢?

《數據的假象》用「殭屍統計數據」來描述上述這種現象:沒人知道數據從何而來。被引用的資訊或統計數據,有可能從一開始就是捏造、不實的,但因為沒有人去追究真偽、只是跟風不斷引用,所以這些數據會一直存活在我們眼前不會消失!

引用了數據卻不追究來源與真實性
這項資訊是死是活搞不清楚、根本就像是殭屍一樣!
(圖片來源:Pixabay

就算人們並沒有惡意,社群媒體的確助長假資訊與數據鬼扯的快速傳播。想像一下,你是社群的小編或是新聞記者的話,要是要求你每則消息都要求證 100% 正確無誤才能轉貼分享,那你分享消息的速度可能永遠都要比其他人晚三、四個月囉。為了跟上社群媒體飛快變化的腳步,我們都可能會(無意間)成為殭屍統計數據的傳播者。

(延伸閱讀:華盛頓郵報曾報導「嘻哈音樂害樂手更短命」,這也是鬼扯!

Facebook 也確實從他們的貼文資料庫檢視過鬼扯快速傳播的現象:不實資訊比證實過正確的資訊傳播得更久。網路上的鬼扯即使被有公信力的單位戳破為不實資訊,依然會繼續被轉發分享,被戳破的不實資訊只是比較可能被刪除而已,但被刪除的速度仍跟不上被分享的速度,鬼扯還是在擴大傳播。

當謊言都蹦蹦跳跳繞世界大半圈了,真理還來不及穿好褲子哩

美國羅斯福總統任內的國務卿 Cordell Hull

為達到目的而鬼扯

當測量成為目標,它就不再是個好的測量標準

古德哈特定律 – 人類學家 Marilyn Strathern (轉述)

只要人們看到有機會獲得獎賞的機會,就會開始操弄遊戲規則,原本為了評估而設計的數據測量,反而失去衡量成效的原始目的。

筆者好豪讀到這段,馬上就想到經濟學課本一定會提到的 代理人問題(Agency Problem)。有些企業會把股價當作衡量執行長(CEO)經營表現的指標,並直接根據股價來支付 CEO 的薪資。企業希望 CEO 幫助公司恆久成長,但是,CEO 的表現是被股價衡量的,而 CEO 想提升股價,並不只有對公司有益的手段而已,CEO 可以選擇到處誇大公司表現、吸引大眾投資來炒高股價;也可以選擇刪減公司長期投資計畫、把錢都投資在眼前的短期生意,讓 CEO 在位期間經營表現都超好、股價節節上升,但實際上對公司長期經營則是種傷害。企業經營的代理人問題,就是古德哈特定律的典型範例。

除了代理人問題,假論文的市場也反映了為達到衡量目的而鬼扯的現象、是我在《數據的假象》學到最有趣的數據鬼扯之一。對許多科學家而言,比起金錢,自己在科學界的聲望是他們更渴望的報酬,出版論文就是累積聲望的主要方式,要在舉足輕重的期刊發表論文需要經過嚴格的同儕審查機制,如果你的論文能通過知名學者的審閱、自然也會受到全世界其他學者的認可。然而,科學家會用論文發表的數量來評斷彼此的能力,這反而造就了假論文市場的產生,有一種論文出版商會採用極度鬆散的同儕審查機制,即使水準不高的學者,也能通過形同虛設的審閱、在這個出版商發表論文。最後,論文發表的數量變成一個可以透過不可靠論文來濫竽充數的數字,不只成為一個對科學家能力無效的衡量,還助長了低品質論文在科學界流竄!

結語:對抗數據鬼扯!

《數據的假象》這本書介紹了數據鬼扯滿天飛的成因:

  • 製造鬼扯所需的力氣與智力比清除還少
  • 鬼扯傳播的速度比清除的速度快
  • 用數據來衡量目標,人們會為達到利益而用數據鬼扯

我們有必要認識這些數據鬼扯的形成,就是因為它是對抗數據鬼扯的第一步!

在任何時候,你得應付的主要鬼扯消息來源就是你自己

美國作家與教育家 Neil Postman

這世界充斥著數據的鬼扯,而且沒有教育制度、法律、或者酷炫的科技(例如貌似萬能的人工智慧?)可以立即解決數據鬼扯流竄的問題,我們只能從自己做起。我們不需要是統計學專家,只要用一點邏輯思考就能做到,即使偵測還有清除數據鬼扯十分費力,只要我們分享任何資訊之前,多一分思考、多一點謹慎,就是對更健全的人類資訊體系莫大的貢獻!


很多書都在介紹數據分析與資料科學有多厲害又多重要,筆者認為,比起無上限地崇拜資料科學,亂用數據會造成的錯誤決策,更值得我們留心。《數據的假象》整本書都是誤用數據的案例分享,學會用從不同角度來拆解假象的思考方式,才不會成為無效數據分析的受害者。

calling-bullshit

《數據的假象》(博客來連結)


如果這篇讀書筆記有幫助到你,歡迎追蹤好豪的 Facebook 粉絲專頁,我會持續跟你分享我讀過的好書;也可以點選下方按鈕,分享給愛看書的朋友們。

推薦閱讀