“大資料”上的研究就是對“相關性”的探索

來源:互聯網
上載者:User

    與傳統的邏輯推理研究不同,大資料研究是對數量巨大的資料做統計性的搜尋、比較、聚類和分類等分析歸納,因此繼承了統計科學的一些特點。統計學關注資料的相關性或稱關聯性,所謂“相關性”是指兩個或者兩個以上變數的取值之間存在某種規律性。“相關分析”的目的是找出資料集裡隱藏的相互關係網(關連網),一般用支援度、可信度和興趣度等參數反映相關性。兩個資料A和B有相關性,只反映A和B在去取值時相互有影響,並不能告訴我們有A就一定有B,或者反過來有B就一定有A。

  嚴格來講,統計學無法檢驗邏輯上的因果關係。例如,根據統計結果:可以說“吸煙的人群肺癌發病率會比不吸煙的人群高几倍”,但統計結果無法得出“吸煙致癌”的邏輯結論。我國機率統計領域的奠基人之一陳希孺原始生前常用這個例子來說明統計學的特點。他說:假如有這樣一種基因,它同時導致兩件事情,一是使人喜歡吸煙,二是使這個人更容易得肺癌。這種假設也能解釋上述統計結果,而在這種假設中,這個基因和癌變就是因果關係,而吸煙和肺癌則是由相關性。統計學的相關性有事可能會產生把結果當成原因的錯覺。例如,統計結果表明:下雨之前常見到燕子低飛,從時間先後看兩者的關係可能得出燕子低飛是下雨的原因,而事實上,將要下雨才是燕子低飛的原因。

    從前習慣了用邏輯思維思考世界,事情的發生有因果關係。其實可以換個方式,多留意一下“相關”。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.