“被打”和“北大” 的關聯--

來源:互聯網
上載者:User

“被打”和“北大” 的關聯--- 趣味資料採礦系列之一(唐常傑)


 (說明:這是在科學部落格上的趣味資料採礦系列十二篇中的第一篇,和朋友討論過,博文不算正式刊物,只把系列的第一篇搬過來,可以宣傳科學網,不算犯規。後面有其它幾篇的連結)


  小時候喜歡讀趣味數理化,所以久有一個小心愿,寫一組趣味資料採礦的科普博文。要把資料採礦的一些概念講得通俗有趣,需要好的例子,正搜尋中,一個有趣的、適合解釋關聯規則的例子就冒出來了。

  科學網上三位博主周濤、呂喆、程智在博文文1 ,文2,文3)  中 對“狼爸打子成才,把三個子女送進了北大”的事情做了定性分析。  本文藉此例來說明資料採礦中關聯規則中支援度、信賴度和興趣度概念,順便對此事做個定量分析, 同時也作為趣味資料採礦系列博文的開篇。

  這個關聯規則 可寫成下列形式:
    R1:   被打 --> 北大,  支援度 s=?,    信賴度 c=? 或 反過來      R2:   北大 --> 被打,  支援度 s=?,    信賴度 c=? 觀察因果的角度與R1有所不同)

  下面將其計算支援度、信賴度的上限,為簡單,採用了一些略有放大的粗略假定和估計。

1 支援度 support)
    全國每年高考人數大約1000萬人2008 :1050萬,2009:1020萬,2010: 957萬);把“狼爸”的三個孩子算成同一年進北大支援度放大三倍),假定同年進北大、且都有“被打”的經曆有3K名支援度大約放大3K倍)
  於是,全國考生中 “被打”且 “進北大” 的支援度s 為:
     支援度 s = 3K/107 =3K*10-7
    狼爸的故事表明,這裡k≥1,  據常識估計K<10  ( 如果輕率放大K,北大學生會提出抗議,幸好,這裡只是反面的假定 ),於是:
     支援度 s < 3*10-6     支援度沒有因果方向, 對R1和R2都適用)
對這樣的機率比較小的事件,成熟彩民也會只當做娛樂,實在不值得媒體大驚小怪。

 2計算“北大-->被打”的信賴度 (confidence)
2.1 在北京大學內計算
 規則R1“被打--> 北大” 的 信賴度計算稍有點難, 留到2.2小節解析。我們先計算 R2:“北大-->被打”的信賴度,它也同樣能說明某種關聯,北大本科生 14000人大約),平均每年收學生3500人,設其中挨過家長打的有3K人1≤k<10),沒有挨打的不少於3470人,則:
     北大-->被打,   信賴度為     3K/3500  <  0.86%  
     北大-->不被打, 信賴度為     3470/3500  > 99.14%
可見,“被打”和“北大”的關聯 很小,不足為信,當不得真。

2.2 計算“被打-->北大”的信賴度 (confidence):
  如上面假設,假定 同年全國被打的N名,其中進入北大的3K名如上估計,0≤k<10)則             R1: 被打-->北大, 信賴度 = 3k/N ,    如果N很大,k>0,信賴度就比較小不敢輕易估計N的具體數值,但不希望N大,那是教育的悲劇),    如果N不太大,K>0,信賴度就比較大。    如果某年,k=0,不管N是多大,那一年“被打-->北大”的信賴度 為0.

2.3 在該家庭範圍內計算,兼議規則的興趣度:
    “狼爸”有四個孩子不知為什麼能夠超生),估計四個都挨過打,三個上了北大
             被打--> 北大, 支援度 0.75, 信賴度  0.75。          1)     這條規則一旦走出其家門, 就不成立了。所以,準確表達為:             該家,被打) --> 北大, 支援度 0.75, 信賴度  0.75。 2)     為了說明其無意義,我們還可以挖掘出一條千真萬確的關聯規則:           該家子女,每天吃飯) --> 北大, 支援度 0.75, 信賴度  0.75。 3)     如果把“每天吃飯”改為任意的保健品,關聯規則也成立,比“打”更具有有誘惑力,說不定還有經濟效益。這條無意義的關聯規則,說明需引入關聯規則的興趣度,此概念稍複雜,只簡介其大致思想。     當關聯規則左邊是多個項,如上面的3)式,可以用減項法測試每個項的貢獻,這類似過敏疾病患者判斷過敏源,左邊甚至可以減少到空集。在3)式中,     a)把“每天吃飯”去掉, 不減少支援度和信賴度,說明此項冗餘;      (b)如把“該家子女”去掉,則相當於在全國的大資料集上挖掘, 支援度和信賴度立刻大減,說明這個項是至關重要的。       如果一個關聯規則中,每一個項都是重要的,這個關聯規則基本上是有意義的。

3 錯誤的挖掘結論     這裡有幾個估計,(1) 所謂的“打”,實際上是高高舉起,輕輕放下,是嚴格的指代詞,還不是那種打得皮開肉綻的打那樣會打掉尊嚴和信心,就悲劇了);(2)老大比較懂事;3)老大對老二老三的影響遠勝於老爸打的效果。“狼爸”在挖掘關聯規則時候,忽略了這一因素,“父假長子女)之威”,用資料採礦的行話,犯了“No interesteness” 的錯誤這是一個稍複雜的概念),得出了錯誤的挖掘結論。4 一個支援度和信賴度都很高的關聯規則
   在輸入文本的錯誤修正技術中,常關注詞與詞的發聲關聯,或諧音關聯,“被打”和“北大”的普通話發音都是“beida”,用拼音IME時候,二者容易混淆,又例如,本博文在輸入最後一節小標題“辨才需待七年期”時,曾把 “辨才”輸入為“辯才“謝謝22樓的朋友的指正),錯誤修正軟體會把近音詞按近似度排序列出。因為在語音近似的意義上:
        被打--> 北大,支援度 100%, 信賴度 100%
於是,在用拼音方法輸入“被打”之後,作輸入錯誤修正檢查時,軟體列出候選詞中的Top 1 就是“北大”,或許可以作為中學生被打後的一種安慰。     這一技術在處理網路文本,微博挖掘時也很有用,如規範 “悲劇 Vs 杯具”,“p2p Vs. P-to-P",”U Vs. YOU“,以及許多網路同聲縮減語等等。5 曾經言必稱啤酒尿布
    過去講關聯規則時候,常常用啤酒尿布的故事,有三個要點:
    (a)表象分析:說,沃爾瑪通過抽象的銷售資料採礦,發現啤酒和尿布常被男性顧客們同時購買,在挖掘出來的若干條形如 Xi-->Yi ,s=? c=? )的規則中,這一條支援度和信賴度都比較高;
    (b)內在聯絡 這不屬於資料採礦,而屬於管理)調查發現,嬰兒之父下班為孩子買尿布時順手買回自己愛喝的啤酒;
    (c )促銷措施 屬於促銷手段),把啤酒和尿布放在同一個貨架 ,或進一步地,把啤酒降價,把尿布漲價,吸引嬰兒之父的消費。    現在人們認為,這隻是一個故事,或許,“狼爸”的例子更貼近,更容易消除對概念的誤解。
6  猜自然之謎時,資料採礦雖屬無奈之舉,卻很有效
    在人們沒有掌握行星運動規律之前,人們從曆史觀測資料去找規律,找匹配。第穀是一位實驗天文學家,曆經40年觀察,積累了關於行星運動的大量資料。
  開普勒在第穀的四十年資料上,用手工作資料採礦,挖掘了十年,發現了行星運動三大定律。 Candida Ferreira採用基因運算式編程GEP)方法,用10個 個體, 進化50代,只需要少得多的資料,幾秒鐘就可完成參見文獻[1],P253-257 )。有了這個定律,如今計算某個行星的位置,就不再需要資料採礦,而直接用公式了。所以資料採礦是在不知道規律時,而要猜自然之謎時的無奈之舉。
    如今,未破解的自然之謎還很多,資料採礦雖屬無奈之舉,卻很有效,挖掘出正確的表達形式公式,定律等)後,再設法用理論或模型 來作動力學的或構造性的解釋。
    上面的分析表明,資料採礦能從能從一些平常熟視無睹的事實中,挖掘出令人驚奇的結果。所以,有些國家把資料採礦專業看作是敏感專業,出國學資料採礦的學生去辦留學簽證時,常常被Check ,複查,偶爾也聽說過被拒簽。 7 辨才需待七年期 。   “狼爸”的三個子女進了北大,還不能就說是成功了,今後還要作科研,找工作,也許還要讀研,寫論文…, 等待他們的競爭還多,要等將來工作上出成果了,才算成功。
   有道是:試玉要燒三日滿,辨才需待七年期。希望他們在七年或者十年之後能真正成才,那時的成才,與現在的“打”,實在是沒有什麼關聯了。
   博友已提出問題,問方法,關聯規則怎麼挖掘 ?問應用,怎麼使用關聯規則?且等下篇分解。
參考文獻
[1] Candida Ferreira,"Gene Expression Programming ,Mathematical Modeling by an Artificial    Intelligence",Second, revised and extended edition,P253-257 ,Springer,2006 ,ISSN print    edition: 1860-949X,ISSN electronic edition: 1860-9503 ,Library of Congress Control    Number:  2006921791.

相關博文

1“被打”和“北大”的關聯--- 趣味資料採礦系列之一

2 烤鴨、麵餅和甜麵醬之樸素關聯---趣味資料採礦系列之二

3 一篇它引上萬的大牛論文與資料血統論-- 趣味資料採礦之三

4 巧挖科學部落格之均擊量公式,兼談幹預規則----趣味資料採礦之四

5 聽媽媽講過去的故事,分房與分類-----趣味資料採礦之五

6 借水滸傳故事,釋決策樹思路---趣味資料採礦之六

7 宴會上的聚類—趣味資料採礦之七

8 農村中學並遷選址、K-平均聚類及蛋雞悖論--趣味資料採礦之八

9 燈謎、外星殖民、愚公移山和進化計算---趣味資料採礦之九

10 達爾文、孟德爾與老愚公會盟:基因運算式編程--趣味資料挖之十

11 十大演算法展輝煌,十大問題現錦繡---趣味資料採礦之十一

12 資料採礦中的趣味哲學---趣味資料採礦之十二

其它系列博文的入口  -   唐常傑部落客頁  -  科學部落客頁


相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.