大資料採礦才有價值

來源:互聯網
上載者:User
關鍵字 大資料 的大資料 這些

2012年開始,大資料就從一個概念變成了一個詞語,並隨著時間的流逝變得更加引人注目,到了2014年,大資料顯然已經是IT圈裡萬人矚目的明星。

著名研究機構IDC總結的「4個V」能很好地界定大資料概念,4V分別是容量、類型、速度和價值(volume、variety、velocity和value)。 大資料是通過高速捕捉、發現和分析,從大容量資料中獲取價值的一種新的技術架構。

各行各業中對資料採礦與分析的需求一直存在,大家都希望從海量資料中尋找業務方向和新商機。 不同的是隨著資訊技術的發展,特別是智慧手機普及以後,使用者參與各類業務所產生的資料總量變多了,能夠分析處理挖掘的資料的種類也變多了,相當部分的資料分析報告的時效性要求更高了。

大資料平臺並不意味對原有資訊系統基礎架構的否定,因為資訊系統中現有的生產系統始終存在,客戶對關鍵業務的可靠性和縱向擴展能力的要求不會減少,客戶對資料的集中管理的可靠性要求始終存在。 大資料平臺重新為基礎架構添加了更好的計算、更強的存儲、更多的資料存儲層次,而且所有的大資料應用都需要堅實可靠、靈活高效的大資料平臺。

資料本身就是資料,價值是隱藏在資料中的,需要挖據、整理、分析才能形成有價值的大資料。 從這點來講,並不是比誰的資料庫大,誰就是大資料。 如果不去應用分析資料,那麼這些資料只能用來歸檔存儲而已,形不成價值。 如何有效、快速、準確地分析並整理資料,是大資料應用的難點,資料需要經過歸類整理、通過優化建模分析,有價值的部分才會浮出資料庫。

例如2014年春節期間,騰訊公司根據QQ使用者登錄地點變化的資料,統計分析出春節期間人們遷徙地點的變化。 同樣百度也基於手機使用者在春節期間登錄地點的變化,給出了某一時間段人群遷移路線圖服務...... 這類基於大量資料統計出的結論,不但能作為一種新聞來傳播,更可以為春運期間的鐵路、公路、民航等交通領域資源調配做建議和參考。 在大資料價值分析愈加成熟的背景下,大資料已經可以説明政府進行更加科學的管理。 對企業而言,大資料可以説明其進行更加精准的行銷和傳播。 比如微博和淘寶的合作,可以依照使用者查詢歷史來進行廣告商品的精准推送。

對於大資料而言,Google和Facebook是最早實施併發掘的公司,他們在大資料的分析和發掘上也遠遠走在前面。 例如Google在全球有數十萬台伺服器,它背後就是一個全球最大的資料庫系統,對這些資料的分析挖掘讓Google發現了新的世界。

其實大資料技術目前依然以開源為主,直到今天也沒有誰家形成絕對的技術壟斷。 即便是IBM、Oracle、SAP、EMC等行業巨頭,也同樣是將開源的大資料技術與自身原來的產品更好的結合起來,形成具有其產品特色的大資料平臺而已。

雖然商業化的大資料平臺基本都集中在國際巨頭手中,但並不意味著中國的大資料就落後于時代了。 國內最典型的大資料應用當屬BAT——百度、阿裡、騰訊。 作為佔據國內80%以上線民搜索的百度,推出的百度指數、框計算等功能,無一例外的都是大資料典型應用;阿裡旗下的淘寶在去年「雙十一」中引爆了線民的購物狂潮,讓隨後一個月的時間裡,各家快遞都還為「雙十一」忙碌, 海量的成交資料和各地購物特點的資料分析也讓阿裡在大資料上佔據了電商領域的重要地位;騰訊攜旗下的老牌QQ+當紅微信,形成了超過10億活躍使用者的大資料基礎,由這些海量使用者的行為積累的資料分析,也形成了騰訊的巨大財富基礎。

新浪微博和360作為新興的大資料企業也具有了自己獨特的發展特色。 新浪微博在更名微博後,顯然已經佔據了社交媒體的第一把交椅,作為各類新聞、消息的第一發源地,已經成為幾乎所有機構、公司、媒體和社交的重要場所,它顯然也是大資料的重要使用者。 360在國內的PC和手機的安全入口佔有絕對優勢,自然也是這些使用者行為資料的獲益者,因此360也當之無愧地成為國內大資料應用的典型企業。

這些巨無霸型的互聯網企業已經將大資料玩弄得爐火純青,那麼是否意味著國內大資料產業已經成熟了嗎?非也,這些巨無霸遠遠領先了中國其他行業在資訊化建設中的步伐,其自身的大資料應用也都是基於開源系統, 由自身強有力的技術團隊進行符合自己業務需求的開發,逐步形成了有企業特色的大資料應用。

與這些互聯網巨頭相比,行業使用者顯然不具備他們那樣雄厚的技術開發實力,顯然不具備將開源大資料系統與自身業務對接的實力。 但他們之前就是IBM、Oracle、SAP、EMC等產品的使用者,他們可以直接從這些知名廠商獲得能和已有業務資料對接的大資料應用平臺。 當然,這些具體的大資料部署同樣要依靠SI等管道的説明,所不同的是,目前在國內能夠實施大資料平臺部署的多數是國際廠商。

其實今天很多行業使用者依然把大資料定位在100TB級別以內,同互聯網企業無上限的大資料相比,100TB記憶體是行業即時分析資料量的上限。 SAP的HANA和Oracle的Exadata軟硬體一體化大資料產品正好覆蓋了這些行業應用領域,這些一體化大資料分析產品也加速了大資料即時分析的可能。 與傳統放在磁碟陣列中的資料庫不同,這些新一代的產品將以往存放在磁碟陣列中的資料壓縮後調入記憶體即時檢索,或將資料放在記憶體和快閃記憶體中分層調用,避免I/O讀取帶來的遲滯。 以往使用者在查詢磁碟陣列中TB級別的資料時,要等待數分鐘甚至更多的時間,無法滿足海量使用者併發查詢的需求,而運行在記憶體中的資料庫產品成功解決了使用者即時查詢的難題。

從上圖可以看到,資料在快速增長,但是使用者可容忍的系統延時增長確實有限,因此大資料的處理和回應比是一個重要的指標。 從早期GB級的資料庫到今天TB級,甚至數百TB級別的資料庫,資料增長的速度早已超越了硬體的摩爾定律。 既然資料正在經歷爆炸式的增長,那麼就需要用更新的資料庫技術才能將海量資料歸類整理,並提取需要的資源。 這對大資料分析的廠商提出了新要求。

中國企業目前缺少大資料實施能力和相關人才,而且大資料分析也不再是單純的軟體或硬體廠商的事情,傳統資料庫廠商充分利用了最新的伺服器技術,像Oracle和SAP已經推出了一體機產品(大資料軟體+定制優化的伺服器+存儲), 而硬體伺服器/存儲廠商也推出了經過充分搭配的大資料一體機,這些一體機產品將是未來大資料超市的一個發展趨勢,也是中國企業走向大資料的一個捷徑。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.