世界各地企業如今都在使用雲服務,實施大資料分析驅動生態系統,對於IT經理和C級高管而言,保持進步是非常重要的。 跟不上發展的速度,意味著失去客戶的風險。 它是企業生態鏈最基本的法則:適應還是被吃掉。 IT系統説明企業分析存儲系統收集的資料,這非常有利的。 但這是說起來容易做起來難,因為建立一個新系統或改造舊系統有很多事情需要考慮。 管理層要求系統運行在最佳性能以獲得投資正回報。 以下是大資料/Hadoop專案10大不脫軌秘訣。
弄清楚你試圖解決的問題
如果你不知道你想用它做什麼,就不要使用你的資料。 有了這樣的認識,你就可以確保公司在正確方向上。 儘早規劃和堅持你的計畫。
定義你的業務問題
問題包括目標受眾,如何做到最好,如何擴大市場範圍,如何有效控制成本,以及如何以最積極的方式讓客戶參與和交流。 這涉及不同類別的資料。 發現什麼問題確實存在至關重要,可以讓企業理解和解決問題以進行改善。
專注最重要問題第一
這並不容易,因為所有問題從各自角度都是最重要的。 劃分優先順序並保持專注。 問題會發展會有新問題出現。
得到那些知道他們在做什麼的人的説明
你需要一個技術專家,他知道該專案的來龍去脈,以及如何解決問題的辦法。 如果你的技術專家不精通業務層面,找一個知道商業模式、財務狀況、產品或服務,以及如何將這一切關聯在一起的人。
知道你的資料分佈在哪裡
如果你使用資料分析指導銷售,你需要著力于使用者行為、產品查看、點擊率和推介網站等。.如果你想簡化供應鏈,你可以肯定需要關注原材料、供應商關鍵效能指標、提單、倉儲、甚至司機效率等資料。 知道這些將説明弄醒出你究竟有多少資料。
投資于瞭解資料
資料在哪裡,哪些資料是從哪兒來的?處理這種情況最好的方法就是關注資料分析過程。 此外,預期中的架構更改和計畫,讓系統能夠處理它們。 如果能在開始時就確定問題的範疇,處理起來將不太困難,花費時間較少,而不是等到系統建立起來。
存儲資料
一旦你知道資料來源以及未來會有多少潛在資料,你就會知道如何存儲這些資料。 資料增長也許不如預期中那麼多,所以你並不需要可擴充性。 也許你每天收集大量的資料,基於雲計算最大的可擴充性也許是要走的路。
處理資料
什麼需要被分析?結構化資料,如日誌檔;半結構化資料,如電子郵件或tweet資料;或非結構化資料,如衛星資料;還是上述所有類型的資料?如果你打算處理是結構化資料,那麼SQL Server就是好的選擇; 但如果你要處理非結構化資料,或者其他類型的資料,Hadoop可能是最有效解決方案。
資料損壞和資料錯誤
無論是由於人為錯誤或Bug引起的錯誤,你將有壞資料。 對此要有前期計畫,這將避免未來為之而頭痛。 仔細查看重復資料刪除、資料精梳和其他品質保證軟體。
設計與實施
這通常是一個主要的絆腳石。 需要做好人事或財務決策。 例如使用Hadoop,如果訓練有素人力資源備用,你就會減少相關費用支出。 如果沒有人具備所需要的技能,他們需要學習它。 但如果甩開了他們當前的任務,進行程式師培訓,或者外包不是一種選擇,那麼軟體即服務(SaaS)可能是最好的選擇。
猜您喜歡:
1.Hadoop:Windows 7 32 Bit 編譯與運行
2.Hadoop 2.3.0解決了哪些問題
3.基於Hadoop的大資料企業前十大集合