工業大資料

來源:互聯網
上載者:User

引言 1988年,我在浙大數學系讀書,范大茵教授主講《概率論》。 我曾問她:「全國新生兒的男女比例是51.2:48.8。 如果各省的統計結果也一樣,是否包含更多的資訊?」 范老師說:「如果按同一個概率發生,各省的結果沒有更多資訊。 」 20多年過去了,我才意識到:理論上,范老師的回答完全正確;但現實中,資訊量卻不相同。

大資料是個流行詞,受到了世界工業界的普遍關注。 有位老院士曾說:大資料主要的成就,與侵犯HTTP://www.aliyun.com/zixun/aggregation/9799.html">個人隱私有關。 的確,大資料在工業界的成功應用並不多。 我相信,大資料會對工業界帶來極大的改變。 但與此同時,在工業界從事大資料研究也是項高風險的工作。 多數人可能會鎩羽而歸。 瞭解大資料不難,難的是不被一些光怪陸離的概念忽悠。 如果不想被忽悠,就需要理解其精髓。

有人說,大資料最本質的特徵是資料量大,要有PB、EB的量級。 為什麼一定是這個量級呢?在這個級別以下,用過去的方法就可以有效存儲、傳輸和處理;超過這個量級以後,需要新的理論、方法和思路。 所以,資料級別的擴大,催生了新的理論。 然而,從應用的角度看,似乎有沒有必要:比這個數量級更低的資料分析往往都沒有做好——資料採礦理論出現了幾十年,成功的案例也不多。 所以,從理論工作者的角度看,強調資料量是有道理的;但從工程師的角度看,過分強調資料量沒有多大的道理。

從應用的角度看,資料量是否重要?可以換一種提法:要研究一個問題,10條資料、100條資料和1萬條資料有區別嗎?在過去,差別不是很大。 比如,做線性回歸,樣本數目比引數多一個就夠了;如果能多幾倍,基本上就很充分。 採用神經元方法時,樣本數比變數多一個數量級也就差不多了。 在這些方法中,資料多了也難以發揮再大的作用。

多出來的資料真的沒用嗎?我的感覺是:多的資料不是無用,而是不會用、難利用。 不是個別人不會用,而是普遍性不會用。 其中的奧妙何在呢?

學過概率或統計理論的人都知道:所有的數學理論都基於特定的假設。 比如,干擾按一定的概率分佈發生、引數檢測誤差可以忽略等。 在很多時候,我們總是想當然地認為,這些條件是天然成立的。 於是,人們習慣于按照書本上的做法,直接進行分析。

但現實中,理論的假設卻往往不成立。 分析工業過程或設備時,資料的分佈往往很不規範;隨意的假設往往會帶來錯誤的分析結論。 再回頭看看本文開頭講到的人口問題:我們假設孩子的性別按一定的概率發生。 然而,這只是假設。 事實上,這些年中國人口的出生比例就發生了很大的變化,而且各個省份也不一樣。

如果嚴格地進行統計研究,首先需要確認的就是:某個隨機現象是否依照固定的頻度發生。 只有這個條件滿足了,‘概率’的基本條件才能滿足。 後續的分析才能有靠譜的結果。

所以,我們需要更多的資料來驗證一些基本假設。 這時,資料量的要求就會大大提升。 另外,當資料的信噪比較低時,對資料量的需求也會大大上升。 筆者曾經做過一個研究,發現分析一個要素的作用,需要2000~20000個數據。

這樣,多出來的資料就有用了。 用好多出來的資料,才能保證分析的正確性。

有人或許要問:像神經元這些非傳統方法,並沒有對資料提什麼要求啊?的確,神經元方法沒有明確提出什麼要求。 但是,誰又能保證其結果的可靠性呢?其實,採用神經元方法也有個潛在要求:建模資料充分,且未來資料的分佈不變。 ‘分佈不變’的要求其實很高:不僅是資料分佈範圍和密度不變,還包括變數間的關係不變、干擾的分佈不變。 這種要求,在現實中是難以驗證和說清楚的。 於是,結果的可靠性也就說不清楚。 這對實際應用是非常不利的。

既然多出來的資料是有用的,能否把‘大資料’的數量要求再降低一點呢?筆者認為:如果需要大量的資料才能完成特定分析任務,並且需要新的思想和方法,都可以看做大資料的範疇。 過於強調資料量是沒有必要的。

剛才的分析可能有點理論化。 下面再具體解一下。

本人長期從事工業資料建模活動。 深知分析結果的可靠性對應用至關重要。 分析結果的可靠性與實用價值,常常是硬幣的兩面:如果正確的發現能創造出巨大的價值,錯誤的認識也必然導致重大的損失。 所以,價值越大的分析結果,對可靠性的要求往往越高。 而這恰恰是資料分析的難點所在。

我們希望有更多的資料,目的是獲得可靠性。

有了大量的、分佈區域廣闊的資料,不僅可以驗證資料的合理性,還可以合理地組合資料,以滿足特定的分析要求,以達到特定的分析目的。 同時,資料多了,還可以通過分析結果的相互校驗,多角度、全方位地分析特定結論的正確性——這一點,是小樣本資料根本做不到的。 尤其是資料誤差相對較大或者相關因素較多時。

說到這裡,我又想起來大資料的另外幾個特徵:「速度」、「多樣性」「低價值密度」。 從應用的角度看,這些特徵的意義似乎也不是很大。

1、產生速度快。 增大了分析的難度,對應用帶來的好處卻不多,故而僅僅是在理論上有價值。

2、低價值密度。 也增加了分析的難度。 但對應用來說,這是一種現象,似乎不值得強調。 事實上,為了獲得可靠的結果,個別的‘小資料’往往才是分析大資料的關鍵鑰匙。 而且,發現具有‘黑天鵝’性質的小資料,往往是研究大資料的重要目的。

3、所謂‘多樣性’,指有很多非結構化資料。 也是增加理論難度、對實用無正面影響的因素。 在現實中,資料分佈越廣越好,便於從不同角度和視野確定結論的可靠性。 所以,我寧可把‘多樣性’理解為數據分佈的廣泛性,而非資料形態的多樣性。

從應用的角度看,筆者更欣賞‘資料科學’的概念:綜合利用資料分析、模型計算和領域知識來解決實際問題。

對工程師來說,分析資料的目的是解決問題。 為了達到分析的目的,應該採取一切有利的方法、收集一切有用的證據,不應該將自己限制在某個特定的理論方法上。 我們期望大資料,卻也喜歡小資料:我們喜歡完整的、真實的資料。 IBM對4V理論進行了矯正。 在筆者看來,這是很有道理的。

綜上所述,筆者認為:將大資料理論用於工業領域時,不可執著于‘原教旨主義’的認識。 我們關注大資料,是為了創造價值,而不是追趕時髦的理論和領域。 從這種意義上說,製造企業研究大資料,應該特別強調‘工業’二字,以區分現在流行的、以商務為主的大資料理論。

‘資料採礦’理論出現了幾十年。 但在工業界的成功應用並不多。 筆者認為:重要的原因之一是缺乏一個合適的資料分析處理理論。 筆者認為:用好工業大資料需要關注三個要點:

1、可靠性。 可靠的結論才能用於工業實際。 在本人看來,所謂可靠性,包含精確性、適用範圍的廣泛性和適用範圍的可知性。 現實中,絕對的可靠是不存在的,我們只能追求相對的可靠。 相對的可靠,可以由儘量多的、獨立的知識或分析結果來支撐。 要做到可靠,就不能僅僅滿足與‘相關性’,而是要儘量關注‘因果性’。 這一點,工業大資料與商務大資料的理論是矛盾的。 同時,可靠性要求我們儘量使用傳統的、有堅實理論基礎的統計方法——只是不能盲目適用這些方法,要關注對適用條件的驗證和構造。

2、超越性。 新發現的知識一定要超越人的認識,否則就沒有價值。 在商務活動中,人的認識相對模糊,大資料研究容易得到超越性的結果。 在工業領域,人們對物理物件的瞭解往往非常深刻。 膚淺的研究很難超越人的經驗。 這時,要讓新知識超越人的經驗,往往要以精確定量為基礎的。 我們不宜將發現不同于經驗的知識作為研究目標:在工業領域,與專家認識不同的結論多數是錯的。 有例外的話,也往往是量變引發質變造成的——這種現象,正是以結論的精確定量為前提的。

3、嵌入性。 大資料的應用必須嵌入合適的流程。 一般來說,僅僅滿足于發現知識並不能創造價值。 在工業應用中,常見的做法是將新發現的知識嵌入到生產和管理流程中去。 最好用模型為載體來實現,促進流程的智慧化。 眾所周知,商務大資料的應用一般要結合新的商業模式。 這一點,工業大資料與商務大資料是相通的。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.