大資料採礦帶動的變遷

來源:互聯網
上載者:User
關鍵字 我們 發現 大資料 人們

自大資料進入了人們的視線之後,它便逐漸成為人們普遍關注的焦點。 大資料講的是pb時代的科學,本質上大資料的挑戰是pb時代的對科學的挑戰,更是對包括資料採礦在內的認知科學的挑戰。 那麼,大資料時代怎麼做資料採礦呢?

在現今時代人們通常所說的大資料主要包括三個來源:第一是自然界大資料,也就是地球上的自然環境,很大很大。 第二是生命大資料。 第三也是最重要的,則是人們關心的社交大資料。 這些資料普遍存在於人們的手機、電腦等設備中。 今天一個報告在3分鐘之內就可能被全世界的人們所知道。

奧巴馬就職的社交場所,這麼多面孔,每一個面孔下都有一個故事,每一個人後面都有大資料的支撐。 人臉是資料安全的很重要的識別器,怎麼把人臉識別清楚呢?人們想了很多辦法。 現在北京市有80萬個攝像頭,我們每天都在攝像頭的監督下開車、購物。 我們可以利用攝像頭做身份認證、年齡識別、情感計算、親緣發現、心理識別、地區識別、民族識別。 這種流媒體主要的形態是非結構化的,特徵之間的關聯關係、設備演算法的準確率等等,都嚴重地制約著大資料人臉挖掘的進度。 如何能從這些海量資料中利用識別演算法提取出所需要的特徵屬性,並理清特徵之間的關係都是現在所面臨的問題。

技術推動電腦發展

1936 年天才數學家圖靈提出圖靈模型,後來有電腦把圖靈模型轉化為物理電腦,這其中有三大塊:cpu、作業系統、記憶體和外存,還有輸入和輸出。 在電腦發展的頭30年裡,我們投入最多的是cpu、作業系統、軟體、中介軟體以及應用軟體。 當時人們側重于計算性能的提高,我們把這個時代叫做計算時代。

計算對軟體付出了很大的努力,尤其是高性能電腦。 我們認為計算在前20年中起到了主導作用,它的標誌速度就是摩爾速度。 在這樣一個計算領先的時代當中,我們主要做的是結構化資料的挖掘。 關係資料庫之父愛德格在1970年提出一個關係模型,以關聯代數為核心運算,用二維表形式表示實體和實體間的聯繫。 三四十年來,各行各業的資料庫和資料倉儲技術,以及從資料庫發現知識的資料採礦成為巨大的資訊產業。

關聯代數是關係資料庫的形式化理論和約束,先有頂層設計和資料結構,後填入清洗後的資料。 資料圍繞結構轉,資料圍繞程式轉。 使用者無需關心資料的獲取、存儲、分析以及提取過程。 通過資料採礦,可以從資料庫中發現分類知識、關聯知識、時序知識、異常知識等等。

隨著資料庫產業的膨大,人們對資料庫已經不太滿足了,於是把databases說成大資料,這便遇到了兩個不可回避的挑戰,第一個挑戰是由於關聯代數的形式化約束過於苛刻,無法表示現實資料;第二個挑戰是隨著資料量的增大, 關聯代數運算性能急劇下降。 在這個時候,我們的存儲技術得到了迅猛發展,人類進入了搜索時代。 搜索因為存儲便宜了,存儲的速度大概每9個月翻一番,所以存儲帶動了技術的腳步,這種搜索時代經過了20多年的發展,帶領我們進入了一個半結構化資料採礦時代。 這個時代的代表人物就是萬維網之父家蒂姆·伯納斯—李,他提出了超文字思想,開發了世界上第一個web伺服器,於是我們可以從一台伺服器上檢索另一台伺服器的內容,伺服器在軟體的支援下可發佈包括文本、表格、圖片、 音視頻的碎片化超媒體資訊。

因此,用戶端伺服器結構和雲計算結構蓬勃產生,這時已經沒有了關於代數那樣嚴格的形式化約束,依靠的主要是規範、標準,所有媒體均以實體形式存在,甚至是軟體,實體通過超連結產生聯繫。

形式化理論比關聯代數寬鬆了許多,創建了靈活多樣的實體,這時候資料開始圍繞實體轉,實體圍繞連結轉。 在雲計算背景下,資料採礦也可以看作是雲計算環境下的搜索與個人化服務,不存在固定的查詢方式,也不會出現唯一、100%準確的查詢結果。

網路化的大資料採礦

隨著互聯網頻寬6個月翻一番的速度,人類進入了交互時代,交互帶動著計算和存儲的發展。

移動互聯網時代的大資料採礦主要是網路化環境下的非結構化資料採礦,這些資料形態反映的是鮮活的、碎片化的、異構的、有情感的原生態資料。

非結構化資料的特點是,它常常是低價值、強雜訊、異構、冗余冰冷的資料,有很多資料放在儲存體裡就沒再用過。 資料的形式化約束越來越寬鬆,越來越接近互聯網文化、視窗文化和社區文化。

關注的物件也發生很大改變,挖掘關注的首先是小眾,只有滿足小眾挖掘需求,才談得上滿足更多小眾組成的大眾的需求,因此一個重要思想就是由下而上勝過由上而下的頂層設計,強調挖掘資料的真實性、及時性,要發現關聯、發現異常、發現趨勢 ,總之要發現價值。

當前,深度學習也是一種資料自我調整簡約。 如果我們在百度上用深度學習搜索一個人臉象素搜索,這麼多人臉誰是誰?資料量急劇增加,各種媒體形態可隨意碎片化,組織結構和挖掘程式要圍著資料轉,程式要碎片化,並可以隨時虛擬重組, 挖掘常常是人機交互環境下不同社區的發現以及社區中形成的群體智慧,在非結構化資料採礦中,會自然進行資料清洗,自然形成半結構化資料和結構化資料,以提高資料使用效率。

群體智慧是一個最近說得很多的詞,我們曾經在電腦上做一個圖靈測試,讓電腦區分哪些碼是人產生的,哪些是機器產生的,這是卡內基美隆大學提出來的,在網路購物、登錄網站、申請網站時都會碰到適配碼被使用。 在此要提到第三個代表人物——路易士,他提出用這個適配碼應用方式。

如果雲計算支撐大資料採礦要發現價值,那麼我們認為雲計算本來就是基於互聯網的大眾參與計算模式,其計算資源是動態的,可收縮的,被虛擬化的,而且以服務的方式提供。 產生擺脫了傳統的配置帶來的系統升級,更加簡潔、靈活多樣、個人化,手機、遊戲機、數碼相機、電視機差別細微,出現了更多icloud產品,介面人性化、個人化,都可成為大資料採礦的終端。

挖掘員支撐各種各樣的大資料應用,如果我們有資料收集中心、存儲中心、計算中心、服務中心,一定要有資料採礦中心,這樣一來,就可以實現支撐大資料的及時應用和價值的及時發現。

大資料標誌一個新時代的到來,這個時代的特徵不只是追求豐富的物質資源,也不只是無所不在的互聯網帶來方便的多樣化的資訊服務,同時還包含區別于物質的資料資源的價值挖掘和價值轉換, 虛擬世界的資訊價值挖掘導致更加精確的控制物理世界的物質和能量,以及由大資料採礦帶來的精神和文化方面的嶄新現象。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.