大資料不是泡沫 是歷史發展的必然

來源:互聯網
上載者:User
關鍵字 大資料 可以 我們 現在

2013年11月7日,由IT商業新聞網主辦,IT時代週刊和全國CIO/CTO俱樂部協辦的「探索*發現」2013大資料暨移動應用高峰論壇在北京新世紀日航飯店三層隆重舉辦。

本次大會以探索大資料為基礎的IT解決方案為宗旨,以發現由大資料應用帶來的商業價值為目的。 邀請了國家企事業單位CIO、知名互聯網企業CTO、全國高新技術園區代表、協力廠商市場研究機構代表、協同辦公領域、APP開發者代表、資訊化專家等業界知名人士參與話題,共同探討大資料、移動互聯網的生態系統構建。

SAS賽仕軟體中國公司總經理劉政

SAS賽仕軟體中國公司總經理劉政在會上發表了名為「大資料與大資料分析技術」的演講,全文如下:

大家下午好,非常感謝主辦方的邀請,今天演講大資料與大資料分析技術。 大資料這兩年非常火,但是他的是商業方面的應用,宏觀談的比較多,具體技術方面談的非常少,所以今天從技術角度給大家講講大資料的話題。

大資料並不像大家聽到的,或者某些人說的是泡沫,其實它是歷史發展的必然。 可以看一下IT技術整體發展,最開始有PC,有基礎軟體,後來發展到互聯網,有資料庫,ERP,管理的自動化,所有這些技術不斷的發展,最後可以看到發展結果就是積累大量的資料。 所以到現在這個階段各個方面都很成熟了,現在就是到了這個階段。

另外我們現在的一些技術也能夠處理大量的資料,這應該說大資料來的是實實在在的,並不是一個口號。

比較早的大家對這個有一個爭議,有人說是谷歌提出來的這個概念,不管誰提出來的概念,現在大資料是實實在在的了,現在資料量全球大概有1.8BP,牽扯行業方方面面。 我們過去學政治經濟學的時候都知道生產要素包括生產資料、人力、資金,現在也可以說資料和生產資料等同價值的看做一個生產要素。 巴非特是一個投資大師,但是從來不投資技術行業,他投資他比較瞭解的傳統型的行業,比如麥當勞、可口可樂這些,但是最近他投了10億美元在技術上。 他說了一句話,要小心懂得資料技術的這些極客。

今年上半年我去美國開會的時候,有一個人介紹說美國有20家公司都在申請大資料,大資料分析在美國發展還是比較成熟的。 去年11月24日,談到IBM把美國500家零售業企業資料集中在一塊做了一個分析,我們不管他去分析什麼,但是看到了這樣的一個需求,他能夠把這麼多的資料集中在一起做分析,可見資料樣本量比過去要大得多。

在一個就是棱鏡計畫,大家知道的比較多了,這裡有一個比較詳細的介紹就是如何跟進一些關鍵點,根據這些關鍵點做一些不同的色彩,表示警戒信號的級別。 做的這個東西點像Facbook做的有情關係網的視覺化的感覺,我們可以看出熱點在什麼地方。 視覺化在大資料裡是非常重要的。

這個計畫的曝光必然會引起資料方面的競爭。 大家可以看到資料分析確實是很有價值的,包括國家安全方面。 資料分析技術和資料分析人員水準在某種程度上將決定國家之間競爭的優勢,是國家的戰略問題。

同時也看到這個機會和我們在互聯網或者是電腦時代一樣,會產生大量的工作機會。

談到技術更多的還是技術層次方面的內容,一個是分析的模式,我們要做一個很複雜的模型,通過複雜的計算得到一些類比性的結果,由此做一些推算分析。 現在樣本量越來越大,越來越多,雖然不是全樣本,但是樣本明顯大得多。

分析速度:過去分析的軟體速度確實很慢,到了1000萬行資料可能要跑好幾個小時,現在用不了這麼長時間,現在到10億行資料幾秒鐘就可以分析出來,這是新技術的發展的結果。 隨著時代的變化,隨著處理資料技術的能力,可以說大資料是一個相對的概念。 現在能做的分析就是格式化資料分析的比較溜,非格式化的文本性的就差一些,不是那麼很準確,很精確。 但是我們對音訊、視頻這方面的分析還是幾乎起步階段還比較弱。 將來有更多的資料樣本讓我們去分析,如何把這些混合起來做分析,這是一個很大的挑戰。

另外就是法律條款。 比如說通過公用資料分析出來你的隱私,國家安全性的問題,這算不算違法? 還有資料擁有權的問題,很多都應該由立法解決。

資料安全性:如果資料被篡改了,分析出來的結果肯定會有偏差,有一些問題。 美國輔島核電站建的時候發現那個地方沒有地震,實際上幾年前就知道有地震,沒有把關鍵資料加進去而已。

物流資料分析,是物聯網的資料分析,把資料收集來以後進行即時分析得出結果,能夠給使用人員及時提供説明。

資料關聯性:現在大資料有這麼多,相關聯的有用的資料還是比較少量的。 另外一個大資料是不是能引出一個概率論? 大資料是不是能夠説明我們解決過去比較難解決的一些科學性的問題? 我們其實知道,比如說有一個太陽系的行星就可以通過資料找到。

10大趨勢:技術方面來說一個是高性能計算;視覺化分析;與雲計算結合,將來的模式是資料時代你的軟體也是帶雲的,你用的雲上的軟體和資料最好能再一個地方,這樣用起來更方便。 其他的包括管理科學會被普遍的使用,包括政府軍隊和企業決策方式的變化。 大資料改變人的思維方式,大家可以看一下劍橋教授寫的一本書大資料關於對人的思維的影響。 再一個就是商業模式和檢索結合起來。 我們把搜尋引擎和資料分析結合起來,能夠找到確實需要的內容這就是精確搜索。

另外一個就是軍隊的變革。 將來決策的速度,決策的準確性需要通過資料分析,需要一些軟體達到。 將來能夠達到定量化的自動化的判斷,這是軍隊發展的方向。 政府可以更好的控制趨勢,瞭解民意,通過資訊對民眾進行一個引導。 前面我們講了大資料,下面講一下大資料技術。

傳統的分析技術會帶來哪些困惑? 過去分析手段限制,資料大會帶來很多問題。 現在新的大資料時代,我們的分析軟體、硬體平臺和資料都發生了變化,所以我們在做資料分析的時候跟過去不一樣,其實是過去那種商業模式也過時了,大家可以想想將來應該是一種新的商業模式,這種商業模式是什麼? 大家可以想一下。 資料不是過去那種結構性的資料,有限量的資料了而是大量的,結果性的,半結構性、非結構性的資料,存儲在不同的地方,怎麼樣去做資料的結合和分佈這些是需要考慮的。

再一個就是軟體,要能夠適合去分析大量的資料,另外要支援比如記憶體計算,支援網格計算。

資料分析發展進化圖:從基礎檔到Flash檔,到現在的資料分析和雲計算。 從最開始時單線程的,後來是多執行緒的網格計算的發展。

要有大資料分析必須有高性能的計算,高性能的分析才可以支援這項工作的發展。

整體架構模式:我們在做大資料分析軟體的時候,一定要能夠支援這些。 進入高性能分析以後,可以看一下速度提高多少,過去10億行資料做分析的時候,根據硬體提供的方式可以10幾個小時到20個小時,現在4妙鐘可以完成。

分析模型:在分析資料的時候要把資料從庫裡取出來,分析完了顯示結果,現在資料的傳輸確實是受到網路頻寬的影響,如果不把資料取出來,直接把分析資料放到庫裡面,只要發起,庫裡就可以對資料進行分析,這個要比把資料傳來傳去快很多。

過去做一個工作花大約有1分鐘的時間,現在我們做96個工作,把這96個工作分到48個去做,一個一個做的話,大概需要96分鐘,現在把它們分到不同的地方做,96個不同的工作完成隻需要2、3分鐘。 所以分散式運算對計算率的提高非常大。

當你打開一個Word文檔把資料從硬碟裡提出來的時候,速度會很慢。 但是在記憶體裡不斷的改Word為文檔的時候,根本感覺不到資料的計算,這是在內核裡的及。 當我們把網格分散式運算與內核分析結合在一起做資料分析的時候,會極大的提高資料分析的速度。

視覺化檢視能夠説明你瞭解更複雜的資料,同時現在其實可以引申出視覺化資料視覺化的東西可以做一個模式,對所有的資料採礦,資料分析,和其他的方案完全可以以這個為基礎這就是一個核心平的台。

現在視覺化分析可以做到對資料的準備,我們把資料從硬碟裡全部放進來,達到記憶體以後以非常快的速度,以秒的級別去計算。

而且這個東西做好以後可以設計成一個報告,這個報告在世界各地通過網頁可以看,而且支援Mobile。

資料分析技術還應該有資料管理方面的技術,我們要把資料分析和雲計算結合起來,這是將來的模式。 現在技術方式確實是有一定的局限性。 將來分析軟體可以雲上,這種模式在將來應該是會朝這方面發展的。

在美國開會的時候大家提出一個概念關於資料分析的版本,1.0、2.0、3.0現在我們做了一個結構化的分析,認為是1.0,大資料我們認為是2.0,將來多種資料混合式的分析可以被看作是3.0。

最後的思考:我們應該抓住這個機會,利用大資料為商業,為各個方面提供服務。 謝謝大家!

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.