西方有句諺語:好奇心殺死貓(”Curiosity killed the cat”),提醒我們過度好奇可能會害我們惹禍上身。在執行 A/B Testing 的時候,顧客如果都是好奇寶寶,也同樣會使你錯誤判讀你的實驗結果喔!
這則筆記將分享資料科學家做 A/B Test 不得不知道的 Novelty 與 Primacy Effect 問題,讓你了解為什麼顧客的「好奇」與「守舊」傾向會影響 A/B 測試判讀,更重要的是,本文最後也會介紹這些問題可以如何解決。
目錄
顧客的「好奇」與「守舊」
Novelty Effect
當產品發表了新設計,顧客可能單純因為好奇心而嘗試使用
我們為產品設計了新功能或樣式,當然是希望它們能讓顧客覺得產品更好用、提升使用體驗。然而,產品中某個新玩意出現的時候,也特別容易引發顧客好奇心,讓人單純想試試看這個新功能會不會帶來什麼驚喜。
若使用者單純因為好奇而使用產品新功能,這項動機跟我們在乎的使用者體驗無關,卻會反映在我們關注的指標(Metric)上。例如,如果我們量測 APP 某個按鈕的點擊率(CTR),指標本身無法分辨出使用者到底是因為好奇而點擊、還是因為這個按鈕真的對他有幫助而點擊。

在 A/B Testing 中,如果出現 Novelty Effect,新設計剛發表的初期時間,看到新設計的實驗組顧客會因為好奇而大量嘗試與探索此項新設計,因此,指標會過度樂觀反應。
要是你在 A/B Testing 初期看到很好的結果、就欣喜地讓新設計正式公開給所有使用者,一段時間後,等到使用者的新鮮感過去,可能會難過地看到新設計不再受到顧客青睞、變成不符合 A/B Testing 結果的狀況。那這樣不只實驗白做了,你為產品做的更新也是徒勞無功。

Primacy Effect
當產品發表了新設計,顧客也可能因為不習慣新設計、而拒絕使用
心理學的 Primacy Effect(首因效應)指的是人對某項事物的第一印象會使人之後對此事物的認知產生重大且長遠的影響。
我們為產品加入新設計後,使用者如果受到第一印象影響、還停留在過去的產品使用模式,反而會不習慣產品的新設計,甚至因此排斥使用新設計(Change Aversion)。這類使用者「守舊」傾向通常發生在更新幅度非常大的設計,例如所有品牌 Logo 重新設計、或者使用者介面(UI)全面更換。
Primacy Effect 對 A/B Testing 的影響可以說跟 Novelty Effect 相反,產品新設計剛發表時,看到新設計的顧客反而不願使用新設計、使得指標在初期表現不佳。要在實驗執行一段時間後,顧客開始習慣、採納新設計,A/B 兩組才能顯現出真正的成效差異。
如何從數據看出問題?
使用者要對你的產品的新設計產生好奇、或者感到不習慣,前提都是:使用者看過產品以前的樣子。
相反地,如果顧客都是我們更新產品後才加入的新使用者,他們不曉得產品過去長怎樣,產品的每項設計對他們來講全部都是新玩意兒,當然就不會有對特定功能好奇或者不適應的 Novelty 與 Primacy Effect 問題了。
因此,我們執行 A/B Testing 之後,可以區分新使用者與舊使用者、比較實驗結果的差異,要是新使用者與舊使用者兩邊 A 與 B 組的差異程度不一樣,你就要知道自己遇上麻煩了!

怎麼解決?
1. 更長時間執行實驗
不論使用者對於新設計的反應是充滿好奇、還是排斥守舊,一段時間後,這些反應終究會趨於正常,顧客終究會依照新設計好不好用來決定行為、並反映在指標數據上。因此,Novelty 與 Primacy Effect 問題的最直覺解決辦法就是讓 A/B Testing 執行時間再長一點,時間長到所有顧客都不再對新設計抱持新鮮感,A 與 B 兩組數據才會忠實呈現使用者體驗是否有差異。
一般來說,延長 A/B 實驗時間需要以週為單位,因為平日與週末的使用者人口組成與行為可能都有很大的差別,你需要跑滿整週的實驗才能完整捕捉這項週間差異(Seasonality)。所以,如果資料科學團隊原本為 A/B Testing 事先計算出的樣本數 需要 1 個禮拜足以搜集完成,當你在第 1 週的資料看出 Novelty 或 Primacy Effect 問題,你或許可以考慮把實驗延長到 2 週或者 3 週。
在此值得一提的是,A/B Test 研究者 Ron Kohavi 曾在 他的論文 中提及:不可以用第 1 週的實驗結果「推算」未來的 Novelty 或 Primacy Effect 變化。尤其是 Primacy Effect,你或許會在數據中看到 A/B Testing 開始的第 1 天,接受新設計的實驗組成效遠遠低於看到產品舊版本的控制組,並且這個成效差異會隨著實驗天數增加而越來越小,然而論文中特別警告,就算看到實驗前幾天實驗組成效一天天變好,不代表你可以推論未來的某一天實驗組的成效會超越控制組!

(Source:Ron Kohavi;製圖:好豪)
花更多時間執行 A/B Test 說起來容易,實際上,你多花費的時間、以及多搜集的樣本,都是更高的實驗成本、是這個解決方案的缺點。多跑一下實驗,其實更像權宜之計,現在資料科學家們更大宗的 Novelty 與 Primacy Effect 解決方案可以參考以下介紹的第 2 種。
2. 分別檢視新與舊使用者的實驗結果
就如上個小節所介紹的,新使用者沒看過產品以前的樣子,就不會有 Novelty 與 Primacy Effect。因此,我們可以只針對新使用者執行 A/B Test,或者是 A/B 測試完成後只分析新使用者的數據,這麼做之後,如果我們能在新使用者的數據看到 A 組與 B 組之間存在指標成效差異,那就確實能歸因於產品設計不同的影響力(Treatment Effect),而不會是受到好奇或守舊的行為傾向影響了。
實務上,分別檢視新與舊使用者的 A/B Testing 結果,除了能去除 Novelty 與 Primacy Effect 效應外,還能幫助你確認你的新設計對不同來源的顧客都是有助益的。這項分析方式對新創時期的產品更重要,新創期產品每天導入的顧客(流量)類型可能變化很大,也就是新使用者與舊使用者的人口組成差很多,分別檢視新與舊使用者的指標數據能確保你的新設計不只是受到產品現有客群青睞,新加入的顧客也要喜歡才能真正使產品增長。
結語
A/B Test 是企業發揮數據力不可或缺的技術,概念看似簡單,其實有超多眉眉角角要注意。這篇文章分享的 Novelty 與 Primacy Effect 就是常被忽略的問題,如果你直接從所有顧客中隨機抽樣做 A/B 測試,顧客的「好奇」與「守舊」造成的行為傾向可能會大大影響你的實驗結果,不可不慎!對此議題有更多興趣的讀者,推薦你閱讀以下 Ron Kohavi 的著作:
- A/B Testing 課本《Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing》(BookDepository;博客來)
- 相關論文:《Trustworthy Online Controlled Experiments: Five Puzzling Outcomes Explained》
如果你對 A/B Testing 有興趣,相信你會喜歡我的 A/B Testing 系列文章:
- A/B Testing 樣本數設定問題:「偷看結果」將成為最大的錯誤
- A/A Test:商業實驗不能忘的前置動作
- Sequential A/B Testing:只需要加減法的 A/B 實驗?
- 比例資料的 A/B Testing 該用卡方還是 Z 檢定?
- 多重檢定問題:一定會有人中樂透
未來我也會持續撰寫我學習與實作 A/B Testing 的心得、也分享更多資料科學知識,有興趣的讀者歡迎追蹤 好豪的粉絲專頁。