淺談A/B測試裡常見的辛普森悖論,企業決策者必看

來源:互聯網
上載者:User

標籤:科學   ab測試   判斷   體驗   研究   target   大型   upload   src   

A/B測試背後有著高深的統計學知識,今天我們就來講講常見的辛普森悖論。

辛普森悖論 (Simpson’s Paradox) 是英國統計學家 E.H.辛普森 (E.H.Simpson) 於1951年提出的悖論,即在某個條件下的兩組資料,在分別討論時都會滿足某種性質,可是一旦合并起來進行考慮,卻可能導致相反的結論。

 

舉一個辛普森悖論的簡單小例子:一個大學裡有商學院和法學院兩個學院。這兩個學院的女生都抱怨“男生錄取率比女生錄取率高”,有性別歧視。但是學校做總錄取率統計,卻發現總體來說女生錄取率遠遠高於男生錄取率!

 

商學院男生錄取率75%高於女生錄取率49%,法學院男生錄取率10%也高於女生錄取率5%,但是總計來說男生錄取率只有21%,只有女生錄取率42%的一半。

為什麼兩個學院都是男生錄取率高於女生錄取率,但是加起來男生錄取率卻不如女生錄取率呢?主要是因為這兩個學院男女比例很不一樣,具體的統計學原理我們後面會詳細分析。

 

這個詭異 (Counter intuitive) 的現象在現實生活中經常被忽略,畢竟只是一個統計學現象,一般情況下不會影響到我們的行動。但是對於使用科學的 A/B 測試進行實驗的企業決策者來說,如果不瞭解辛普森悖論,就可能會錯誤的設計實驗,盲目的解讀實驗結論,從而對決策產生不利影響。

 

我們用一個真實的醫學 A/B 測試案例來說明這個問題。這是一個腎結石手術療法的 A/B 測試結果:

看上去無論是對於大型結石還是小型結石,A 療法都比 B 療法的療效好。但是總計而言,似乎 B 療法比 A 療法要好。

 

這個 A/B 測試的結論是有巨大問題的,無論是從細分結果看,還是從總計結果看,都無法真正判斷哪個療法好。

 

那麼,問題出在哪裡呢?這個 A/B 測試的兩個實驗組的病曆選取有問題,都不具有足夠的代表性。參與實驗的醫生人為的製造了兩個本身不相似的實驗組,因為醫生似乎覺得病情較重的患者更適合 A 療法,病情較輕的患者更適合 B 療法,所以下意識的在隨機分配患者的時候,讓 A 組裡面大結石病曆要多,而 B 組裡面小結石病曆要多。

 

更重要的問題是,很有可能影響患者康複率的最重要因素並不是療法的選擇,而是病情的輕重!換句話說,A 療法之所以看上去不如 B 療法,主要是因為 A 組病人裡重病患者多,並不是因為 A 組病人採用 A 療法。

 

所以,這一組不成功的 A/B 測試,問題出在實驗流量分割的不科學,主要是因為流量分割忽略了一個重要的“隱藏因素”,也就是病情輕重。正確的實驗實施方案,兩組實驗患者裡,重病患者的比例應該保持一致。

因為很多人容易忽略辛普森悖論,以至於有人可以專門利用這個方法來投機取巧。舉個例子,比100場球賽以總勝率評價好壞。取巧的人專找高手挑戰20場,勝1場,另外80場則找平手挑戰,勝40場,結果勝率41%;認真的人則專挑高手挑戰80場而勝8場,而剩下20場平手打個全勝,結果勝率為28%,比41%小很多。但仔細觀察挑戰對象,後者明顯更有實力。

 

從這幾個辛普森悖論的例子出發,聯想到我們互連網產品運營的實踐,一個非常常見的誤判例子是這樣的:拿1%使用者跑了一個實驗,發現實驗版本購買率比對照版本高,就說實驗版本更好,我們要發布實驗版本。其實,可能只是我們的實驗組裡圈中了一些愛購買的使用者而已。最後發布實驗版本,反而可能降低使用者體驗,甚至可能造成使用者留存和營收數額的下降。

 

那麼,如何才能在 A/B 測試的設計、實施,以及分析的時候,規避辛普森悖論造成的各種大坑呢?

 

最重要的一點是,要得到科學可信的 A/B 測試實驗結果,就必須合理的進行正確的流量分割,保證實驗組和對照組裡的使用者特徵是一致的,並且都具有代表性,可以代表總體使用者特徵。這個問題也一直是吆喝科技的 AppAdhoc A/B Testing 雲端服務的雲端系統著力研究和解決的問題。

 

本文吆喝科技創始人及CEO 王曄

 

授權轉載自吆喝科技部落格

淺談A/B測試裡常見的辛普森悖論,企業決策者必看

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.