前言
2012年的時候「大資料」的說法逐漸出現在我們的視野當中,到了2013年「大資料」成了最熱門的討論話題,那麼什麼是大資料呢,大資料到底擁有哪些魔力讓人去熱議呢?我們先看下大資料的定義:「大資料(big data), 或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為説明企業經營決策更積極目的的資訊。 (在維克托•邁爾-舍恩伯格及肯尼斯•庫克耶編寫的《大資料時代》中大資料指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有資料的方法)大資料的4V特點:Volume(大量)、Velocity(高速)、 Variety(多樣) 、veracity(真實性 )。 」此段關於大資料的說法來源百度百科。
其實「大資料」並不是2012年才誕生了,早在上世紀90年代的時候像亞馬遜、谷歌、微軟等公司就已經開始進行資料的挖掘, 現在我們可以看到現在對於大資料利用和運用比較好的企業其實早在多年前就開始佈局和研究資料對於企業的前景和應用開發,比如IBM現在它是全球最大的資訊技術和業務解決方案公司。 早在 2011年IBM正式推出InfoSphere大資料分析平臺;比如谷歌,BigQuery是谷歌推出的一項Web服務,用來在雲端處理大資料。 該服務讓開發者可以使用Google的架構來運行SQL語句對超級大的資料庫進行操作。 BigQuery允許使用者上傳他們的超大量資料並通過其直接進行互動式分析,從而不必投資建立自己的資料中心。
由此可見「大資料」其實相對較早就在國外已經開始興起,只是到國內的時間比較短暫,伴隨「大資料」在國內的興起,一些SMB企業也開始追求大資料,想在大資料的潮流中撈到屬於自己的那一桶金,但對於中小企而言看似美麗的「大資料」 成功其實還是有一定的門檻,理智看待和科學使用大資料應用對於SMB企業來說才是正確的方法。
注:SMB(Small and Midium-sized Business)就是指經營規模不大,人員、資金有限的中小規模企業。 各國對中小型企業的定義標準不同,有的以員工人數劃分,有的以營業額或市場份額來劃分。
2大資料對於企業的誘惑
對於企業來說癡迷于「大資料」總是有理由的,尤其在一些行業專家的忽悠之下更是讓一些中小企業主覺得大資料是非常神奇的,故此更是瘋狂的追求大資料的應用和利用。
大資料的誘惑力
那麼大資料對於企業到底有哪些好處呢,這裡為大家簡單的總結下:
第一、 大資料的挖掘能幫企業瞭解客戶需求
大資料能夠分析出企業使用者群的屬性從而加強企業對使用者的需求?答案是「Yes」,其實這也正是大資料的魅力所在。 企業用工龐大的資料來源但是這些資料看似分散和毫無關聯,但是合理有效的理由資料模型進行建模分析你會發現一定的使用者行為規律和軌跡,通過使用者的這些習慣,企業可以根據自身的業務給使用者推送相關的服務。
這裡舉一個例子說明下企業如何利用大資料來瞭解使用者的需求。 比如你的客戶喜歡戶外騎車運動,會在自己的自行車上安裝一些監控儀器,通過這些儀器可以檢測到一些騎車的狀況,通過這樣的資料積累,企業可以在使用者騎車的時候推送其周邊的一些交通狀況、維修店資訊或者商店等內容,方便使用者使用, 並可以通過使用者的行為來判斷使用者的性質,在適當的時候推送適當的內容,說白了就是讓企業做精准行銷,當然,這個是在移動端體現大資料的價值。
第二、 大資料的應用可以節省企業時間
對於現在的企業來說不論規模大小節省時間就是節省金錢,但是在一些海量的資料面前如何提升自己的工作效率這一直是個難題,因為如何快速處理好這些資料他們沒有好的辦法,但是大資料的應用可以有效提升企業和減少企業的時間。 比如沃爾瑪,這家零售業寡頭為其網站自行設計了最新的搜尋引擎Polaris,利用語義資料進行文本分析、機器學習和同義字挖掘等。 根據沃爾瑪的說法,語義搜索技術的運用使得線上購物的完成率提升了10%到15%。 「對沃爾瑪來說,這就意味著數十億美元的金額。
第三、 大資料對於企業發展有説明
對於企業而言,大資料意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。 而且目前就國內眾多中小企業來說他們擁有的資料有很大一部分依然處於休眠或者半休眠的狀態,並沒有產生很大的價值。 對於企業來說大資料也更多的説明業務流程的優化,比如,可以通過利用社交媒體資料、網路搜索以及天氣預報挖掘出有價值的資料,其中大資料的應用最廣泛的就是供應鏈以及配送路線的優化。 在這兩個方面,地理定位和無線電頻率的識別追蹤貨物和送貨車,利用即時交通路線資料制定更加優化的路線。 人力資源業務也通過大資料的分析來進行改進,這其中就包括了人才招聘的優化。
從這幾個簡單的例子我們不難看出來其實「大資料」對於企業來說還是非常有益的,不論在精准行銷方面還是企業內部流程管理等方面都有著很重要的意義,但是對於一些中小企業來說追求大資料的挖掘會如此輕鬆和簡單嗎?其實不然, 對於一些企業來說對於「大資料」的挖潛是要有付出的。
3困難一:傳統企業IT構架無法適應
眾所周知,大資料簡單來說就是企業存儲的資料,而在電腦中資料的存儲是按照位元組來統計的,那麼大資料應該是多少位元組呢?我們簡單的查找了一些目前企業大資料的存儲量,大家可以瞭解下。
企業IT架構組成
據悉,目前互聯網企業資料量達到了1000PB;在能源行業,僅中國國家電網智慧電錶資料就達數十PB;在醫療行業,一個大型城市的居民健康檔案一年可達 5PB;氣象領域,氣象衛星及天氣雷達,每日可形成TB級觀測資料。 據統計,2013年中國產生的資料總量超過了0.8ZB,是2012年的兩倍。 從這些資料我們不難發現,其實我們現在已經進入了資訊和資料爆炸的時代,每個行業的資料都成倍的增長。
正是因為資料量成倍的增長對於企業來說存儲就成了負擔,簡單的存放裝置完全不能滿足企業的資料存儲需求,加上資料量的龐大給檢索、備份等應用都帶來極大的負擔,傳統的IT架構已經無法滿足時代需求。 我們以SAS提供的產品為例,他們的產品售價為10萬美金一台,對於普通的企業來說5-10台即可滿足需求,以五台為基礎,對於企業來說設備基本要支出近700萬人民幣,這還不包括後續的升級和維護等成本。 因此,看似美好的大資料應用其實對於資金有限的企業來說絕對是個美好的願景,一旦投入其中,使用不當絕對就是個資金的無底洞。
4困難二:資料模型複雜資料變現價值難度大
對於企業來說其實單純的資料並不會產生價值,如何把這些資料進行加工整理之後運用到實際當中才會產生價值,為了讓資料變得視覺化所以運用資料模型進行資料建模和分析就是非常必要的,因此資料模對於大資料來說是非常重要的。
大資料的模型複雜
不同的企業擁有不同的資料,比如人員資料、WEB文本、交易資料、呼叫資料、感應器資料、海量音訊視頻而這些資料中當前結構化資料只占5%,半結構化資料占10%,非結構化資料占85%, 所以對於企業來說如何讓這些紛繁複雜的資料類型進行整合、管理、分析,實現資料價值最大化成為一大難題。
目前來說成熟有效的資料模型還是有限,僅能滿足部分企業或者行業的應用,因此對於眾多中小企業來說如果沒有合適自己的資料模型進行資料的分析和整理要利用好大資料也是很有些困難的。 而且資料模型有著各自的優缺點,它們適用于不同的領域。 不管那種模型都要根據實際應用的場景做出選擇。 尤其對於一些企業來說單一的資料模型不能滿足自己的解決方案,許多大型應用可能需要集成多種資料模型。
5困難三:資料獨立性強連通性差
在分析第二個困難的時候我們知道資料的種類非常多而且資料的結構也不同,並且在資料的共用過程由於涉及不同的資料庫導致在不同的作業系統、資料庫類型、硬體平臺等方面存在一些差異,從而形成一些資料的獨立性, 這對於資料的共用和運行產生了一定的阻礙。 因此如何實現異構資料庫間的資料整合與共享成為急需解決的問題。
資料孤立
對於企業來說「大資料分析」其實還是要依靠資料分析來發現問題所在,並通過模型和預測分析和改善進行發展,以實現企業在行業的改革和創新。 同時當我們對資料的盲目依賴會導致思維和決策的僵化。 當越來越多的事物被量化,人們也更加容易陷入只看重資料的誤區裡。 因此如何避免成為資料的奴隸,也成為非常重要的課題。
6困難四:資料安全與個人隱私如何平衡
我們在前面的時候說過「大資料」的有效應用可以讓企業做到精准行銷和提升企業的流程或者對未來的預判,但是在大資料面前個人隱私問題也被直接擺上了檯面上,尤其目前個人使用者對於個人隱私逐漸的重視,這也讓企業進入一個難以平衡的處境。
安全和隱私成關鍵
對於企業來說,有效的利用電子商務、搜尋引擎、SNS社交應用等互聯網服務商都對可以對使用者行為資料進行了挖掘和分析,以便可以日後可以做到精准行銷或者得道一些商業利益, 但通過這些手段和形式活動使用者資訊的同時無可避免的要涉及到個人隱私。 對於企業來說如何避免企業對於使用者資訊的洩露和保證資料的安全是企業利用大資料分析的一個基本保證。
不僅如此,如果遇見一些不法企業運用大資料還可能預測並控制人類的潛在行為,在缺乏有效倫理機制下有可能造成一些違法的事情發生,因此大資料對於一些企業應用還涉及道德底線的問題。
7總結
對於企業來說大資料最核心的價值就是在於對於海量資料進行存儲和分析,通過合理有效的分析去進行相關的改變和預判,相比起現有的其他技術而言,大資料的「廉價、迅速、優化」這三方面的綜合成本是最優的。 尤其在互聯網的大潮推動下「大資料」日後一定會有更好的發展前景。
對於企業來說大資料可能不會滿足所有企業的需求,但是它的確給企業帶來了發展和提高收入的契機,但同樣如何對資料收集、處理、分析都是企業面臨的實際問題。