用資料創造價值——透視大資料技術的背後

來源:互聯網
上載者:User

毫無疑問,世界上所有關注開發技術的人都意識到「大資料」對企業商務所蘊含的潛在價值,其目的都在於解決在企業發展過程中各種業務資料增長所帶來的痛苦。

現實是,許多問題阻礙了大資料技術的發展和實際應用。

因為一種成功的技術,需要一些衡量的標準。 現在我們可以通過幾個基本要素來衡量一下大資料技術,這就是——流處理、並行性、摘要索引和視覺化。

誰會用到大資料呢?

一年前,大資料技術的一些主要使用者是大型Web企業,例如Facebook和雅虎,它們需要分析點選流資料。 但是今天,「大資料技術已經超出了Web,是要是有大量資料需要處理的企業都有可能用到它。 」例如銀行、公用事業機構、情報部門等都在搭乘大資料這輛車。

實際上,一些大資料技術已經被一些擁有很前衛技術的企業在使用了,比如受社交媒體推動而需要創建相應Web服務的企業。 它們對於大資料項目目的貢獻非常重要。

而在其他垂直行業中,有些企業正在意識到,它們基於資訊服務的價值定位要比它們先前想像的要大得多,所以大資料技術很快就吸引了這些企業的注意。 再加上硬體和軟體成本的下降,這些企業發現它們已經處在了一場企業大轉型機遇的完美風暴中。

大資料處理的應對三大挑戰:大容量資料、多格式資料和速度

大容量資料(TB級、PB級甚至EB級):人們和機器製造的越來越多的業務資料對IT系統帶來了更大的挑戰,資料的存儲和安全以及在未來訪問和使用這些資料已成為難點。

多格式資料:海量資料包括了越來越多不同格式的資料,這些不同格式的資料也需要不同的處理方法。 從簡單的電子郵件、資料日誌和信用卡記錄,再到儀器收集到的科學研究資料、醫療資料、財務資料以及豐富的媒體資料(包括照片、音樂、視頻等)。

速度:速度是指資料從端點移動到處理器和存儲的速度。

大資料技術涵蓋哪些內容?

一、流處理

伴隨著業務發展的步調,以及業務流程的複雜化,我們的注意力越來越集中在「資料流程」而非「資料集」上面。

決策者感興趣的是緊扣其組織機構的命脈,並獲取即時的結果。 他們需要的是能夠處理隨時發生的資料流程的架構,當前的資料庫技術並不適合資料流程處理。

例如,計算一組資料的平均值,可以使用一個傳統的腳本實現。 但對於移動資料平均值的計算,不論是到達、增長還是一個又一個的單元,有更高效的演算法。 如果你想構建資料倉儲,並執行任意的資料分析、統計,開源的產品R或者類似于SAS的商業產品就可以實現。 但是你想創建的是一個資料流程統計集,對此逐步添加或移除資料塊,進行移動平均計算,而且資料庫不存在或者尚不成熟。

資料流程周邊的生態系統有欠發達。 換言之,如果你正在與一家供應商洽談一個大資料項目目,那麼你必須知道資料流程處理對你的專案而言是否重要,並且供應商是否有能力提供。

二、並行化

大資料的定義有許多種,以下這種相對有用。 「小資料」的情形類似于桌面環境,磁片存儲能力在1GB到10GB之間,「中資料」的資料量在100GB到1TB之間,「大資料」分散式的存儲在多台機器上,包含1TB到多個PB的資料。

如果你在分散式資料環境中工作,並且想在很短的時間內處理資料,這就需要分散式處理。

並行處理在分散式資料中脫穎而出,Hadoop是一個分散式/並行處理領域廣為人知的例子。 Hadoop包含一個大型分散式的檔案系統,支援分散式/並行查詢。

三、摘要索引

摘要索引是一個對資料創建預計算摘要,以加速查詢運行的過程。 摘要索引的問題是,你必須為要執行的查詢做好計畫,因此它有所限制。

資料增長飛速,對摘要索引的要求遠不會停止,不論是長期考慮還是短期,供應商必須對摘要索引的制定有一個確定的策略。

四、資料視覺化

視覺化檢視有兩大類。

探索性視覺化描述工具可以説明決策者和分析師挖掘不同資料之間的聯繫,這是一種視覺化的洞察力。 類似的工具有Tableau、TIBCO和QlikView,這是一類。

敘事視覺化檢視被設計成以獨特的方式探索資料。 例如,如果你想以視覺化的方式在一個時間序列中按照地域查看一個企業的銷售業績,視覺化格式會被預先創建。 資料會按照地域逐月展示,並根據預定義的公式排序。 供應商Perceptive Pixel就屬於這一類。

五、生態系統戰略

許多最大最成功的公司都花費大量資金構建圍繞它們產品的生態系統。 這些生態系統被產品特性和商務模型所支援,並與合作夥伴的產品和技術協同工作。 如果一個產品沒有一個富有戰略的生態系統,是很難適應客戶的要求的。

(責任編輯:呂光)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.