隨著雲計算的落地,「大資料」已成為業界討論最廣泛的關鍵字之一,很多企業已經在尋找合適的BI工具來處理不同來源收集到的大資料,但儘管大家對於大資料的意識在提高, 但只有少部分的企業如谷歌和Facebook這樣的企業才能夠真正利用大資料採礦企業商業價值。
其實隨著大資料時代的來臨,企業對於大資料的理解不應僅限於對Apache Hadoop這樣的基礎技術的瞭解,企業應該要從基礎設施角度來瞭解和保護企業擁有的大資料。 因為在未來3到5年,我們將會看到那些真正理解大資料並能利用大資料進行價值挖掘的企業和不懂得大資料價值挖掘企業之間的差距,真正能夠利用好大資料的企業必然具備強勁有力的競爭優勢,從而成為行業的大佬。
事實上,目前很多企業都已經開始關注大資料,廠商也開始大肆介紹自己的大資料產品,相關會議持續不斷,這也讓我們看到大資料知識普及的成功,但這只是從思想工作角度來看的,當我們尋找那些真正能挖掘大資料商業價值的企業時, 幾乎寥寥無幾,所以就目前來看,大資料價值的挖掘還只是處於初級階段。
未來真正能夠在大資料中挖到第一桶金的必然是像Facebook和Google這樣的企業,他們在資料管理和資料開採方面具備先天的優勢,所以有理由相信他們將會引領這個大資料時代。 除了他們,其他要想在大資料時代引領前端的企業必定是那些行業裡的領導者,因為他們有提早佈局以此建立行業標準的野心。
大資料的角色
大資料在IT領域到底扮演著什麼樣的角色呢? 舉個例子來說說這個問題吧。 例如,製藥企業如果想要進入製藥行業的100強,那麼他就必須要抓取上百萬個相關網頁的資料,然後進行分析、擦除無用資訊最後才能找到有價值的資訊。 對於一個汽車製造商來說,它需要即時手機那些駕駛在道路上的汽車的資訊。
儘管企業已經意識到大資料的機制,但卻不知道如何才能從中挖掘到商業價值。 大資料就像是一個深入大海底部的大魚網,有的金槍魚、大白鯊等精品,但同時也有蝦米、貝殼等價值低的便宜貨。 而我們的企業是大小通吃的,這樣龐大的資料如何挖掘價值也就成為了一個頭疼的難題。
大資料裡的語義資料模型
大資料的資料很大一部分屬於非結構化資料,包括語音、視頻、圖片、文檔、論壇、網頁等,如何才能輕鬆的操作這些資料呢? 建立一個語義資料層是一個很不錯的方法,你可以從中提取可用資料在資料庫之上建立一個資料語義模型層,以此來説明你理解地下所有的資訊。
從不同來源收集到資料之後,企業要將其放置在一起,然後開始分析、處理這些資料。 傳統的做法是建立一個資料倉儲,將這些收集到的資料提取到建立好的資料倉儲中並生成報告。 但這是一個相當耗時的過程,而且還無法靈活進行,每次你要做修改,都必須要回到資料倉儲去做修改,相當的頭疼。
大資料的資料容量是如此龐大,我們需要處理一大堆相關資訊,這些資訊來源都不同。 不同的人對同一個東西的描述也都不一樣,語義技術就能夠説明判斷出這些叫法是否講的是同一個事物。 例如,有人會叫IBM為「IBM」,有人則稱其為「International Business Machines」,其實說的都是一個公司,其實電腦是很笨的,只有通過這個語義資料模型層就能進行很好的判斷。
大資料裡的風險管理
在資料管理的時候,將所有資料放在一個地方是有很大的風險的,為了資料的安全,資料應該存儲不同的地方。 如數值資料可以存儲在資料庫裡,非結構化的資料則可以存儲在文檔或者表格裡。 我們看到,增加了這些不同來源的風險資訊的語義描述,意味著我們可以迅速瞭解綜合風險狀況。
通過語義資料模型一個最大的好處就是,在進行修改時,無需回到資料最底層進行修改,去重寫遺留系統和資料庫語義。 因為這個語義資料模型是在資料之上的,它的破壞性遠小於其他的技術,只要我們為一個來源的資料提供一個語義定義,我們就可以直接應用到其他來源的資料之上。
其實這個技術並不是為程式師或是資料庫管理人員設計的,而是為業務人員設計。 業務人員他需要明白這些資料對他而言是何意義,他看不懂最底層的資料表格,他希望能夠直觀的看到一段時間內銷售量與其他因素的關係,而這些只有通過我們的語義資料模型層才能做到。 近幾年,IT部門與營業單位的界限其實開始漸漸模糊,營業單位能夠更好的明確自己的需求,而IT部門也能更好的滿足營業單位的需求,雖然還沒達到最佳的狀態,但已經超著這個方向在努力了。
大資料的安全問題
對於收集到的資料的訪問需求,也以為這企業需要保證這些資料的安全性。
很多企業在資料安全方面犯的最大錯誤就是做完架構、設計、開發等所有工作之後,才開始考慮安全問題,這是非常大的錯誤。 所以實資料安全性應該從開始之初就要考慮安全架構問題。
安全架構的搭建只是一個方面,為了保證資料的安全,建議企業將資料切片進行存儲。 因為這樣能夠做到更精確的控制。 其實每一塊的資料都是企業的資產,在這裡可以設置公司員工對於這個資料資產的許可權,如查看、修改、刪除等許可權。 當然還要對這些資料進行加密,這樣一來,就算有人侵入資料庫盜用了這個部分的資料,我們還是比較安全的,因為無上下文的資料對於竊取者來說並無多大意義,因為大資料的價值密度很低。
在這裡不得不提到「'toxic data」,這個詞是Forrester提出的,主要指的是企業手中「毒資料」。 舉個例子解釋一下,大家可以想像一下無線公司收集到的資料,其中包括登錄到信號塔的使用者資訊,使用者線上時間、使用者使用的資料,他們的地理位置是否移動等,企業通過這些資料可以進行使用者行為分析,但與此同時, 公司還能收集到使用者的信用卡密碼、社交網站的密碼、購買習慣等使用者私人資訊。
這些資料應該說是具有相當大的價值,為何又稱為「毒資料」呢? 因為一旦這些資料流程出落入非法份子手上,勢必對企業和個人造成巨大的損失。
世界是很公平的,收入與風險是成正比。 但為了降低風險,這時對資料的加密就變得尤為的關鍵。
談到大資料,最基本的做法是使用透明資料加密法——那就是對所有捕獲到的資料都進行加密。 這樣能保證企業的所有資料都是經過加密的。 過去,考慮到成本問題,很多企業都不願意這麼做,但現在有很多開源的加密方法可供企業進行選擇。
(責任編輯:蒙遺善)