標籤:科學 ab測試 判斷 體驗 研究 target 大型 upload src
A/B測試背後有著高深的統計學知識,今天我們就來講講常見的辛普森悖論。
辛普森悖論 (Simpson’s Paradox) 是英國統計學家 E.H.辛普森 (E.H.Simpson) 於1951年提出的悖論,即在某個條件下的兩組資料,在分別討論時都會滿足某種性質,可是一旦合并起來進行考慮,卻可能導致相反的結論。
舉一個辛普森悖論的簡單小例子:一個大學裡有商學院和法學院兩個學院。這兩個學院的女生都抱怨“男生錄取率比女生錄取率高”,有性別歧視。但是學校做總錄取率統計,卻發現總體來說女生錄取率遠遠高於男生錄取率!
商學院男生錄取率75%高於女生錄取率49%,法學院男生錄取率10%也高於女生錄取率5%,但是總計來說男生錄取率只有21%,只有女生錄取率42%的一半。
為什麼兩個學院都是男生錄取率高於女生錄取率,但是加起來男生錄取率卻不如女生錄取率呢?主要是因為這兩個學院男女比例很不一樣,具體的統計學原理我們後面會詳細分析。
這個詭異 (Counter intuitive) 的現象在現實生活中經常被忽略,畢竟只是一個統計學現象,一般情況下不會影響到我們的行動。但是對於使用科學的 A/B 測試進行實驗的企業決策者來說,如果不瞭解辛普森悖論,就可能會錯誤的設計實驗,盲目的解讀實驗結論,從而對決策產生不利影響。
我們用一個真實的醫學 A/B 測試案例來說明這個問題。這是一個腎結石手術療法的 A/B 測試結果:
看上去無論是對於大型結石還是小型結石,A 療法都比 B 療法的療效好。但是總計而言,似乎 B 療法比 A 療法要好。
這個 A/B 測試的結論是有巨大問題的,無論是從細分結果看,還是從總計結果看,都無法真正判斷哪個療法好。
那麼,問題出在哪裡呢?這個 A/B 測試的兩個實驗組的病曆選取有問題,都不具有足夠的代表性。參與實驗的醫生人為的製造了兩個本身不相似的實驗組,因為醫生似乎覺得病情較重的患者更適合 A 療法,病情較輕的患者更適合 B 療法,所以下意識的在隨機分配患者的時候,讓 A 組裡面大結石病曆要多,而 B 組裡面小結石病曆要多。
更重要的問題是,很有可能影響患者康複率的最重要因素並不是療法的選擇,而是病情的輕重!換句話說,A 療法之所以看上去不如 B 療法,主要是因為 A 組病人裡重病患者多,並不是因為 A 組病人採用 A 療法。
所以,這一組不成功的 A/B 測試,問題出在實驗流量分割的不科學,主要是因為流量分割忽略了一個重要的“隱藏因素”,也就是病情輕重。正確的實驗實施方案,兩組實驗患者裡,重病患者的比例應該保持一致。
因為很多人容易忽略辛普森悖論,以至於有人可以專門利用這個方法來投機取巧。舉個例子,比100場球賽以總勝率評價好壞。取巧的人專找高手挑戰20場,勝1場,另外80場則找平手挑戰,勝40場,結果勝率41%;認真的人則專挑高手挑戰80場而勝8場,而剩下20場平手打個全勝,結果勝率為28%,比41%小很多。但仔細觀察挑戰對象,後者明顯更有實力。
從這幾個辛普森悖論的例子出發,聯想到我們互連網產品運營的實踐,一個非常常見的誤判例子是這樣的:拿1%使用者跑了一個實驗,發現實驗版本購買率比對照版本高,就說實驗版本更好,我們要發布實驗版本。其實,可能只是我們的實驗組裡圈中了一些愛購買的使用者而已。最後發布實驗版本,反而可能降低使用者體驗,甚至可能造成使用者留存和營收數額的下降。
那麼,如何才能在 A/B 測試的設計、實施,以及分析的時候,規避辛普森悖論造成的各種大坑呢?
最重要的一點是,要得到科學可信的 A/B 測試實驗結果,就必須合理的進行正確的流量分割,保證實驗組和對照組裡的使用者特徵是一致的,並且都具有代表性,可以代表總體使用者特徵。這個問題也一直是吆喝科技的 AppAdhoc A/B Testing 雲端服務的雲端系統著力研究和解決的問題。
本文吆喝科技創始人及CEO 王曄
授權轉載自吆喝科技部落格
淺談A/B測試裡常見的辛普森悖論,企業決策者必看