大資料時代:如何贏得競爭優勢

來源:互聯網
上載者:User

我們已經進入了「大資料時代」,2011 IDC Digital Universe報告說,資料增長的速度已經超過了摩爾定律(Moore's Law)。 這種趨勢表明企業處理資料模式的轉變,即隔離的孤島正在被大型集群伺服器所取代,這種伺服器集群將資料與計算資源保存在一起。

從另一種角度來看這種模式轉變,這種轉變表明資料增長的速度和資料量需要一種新的網路計算方法。 在這方面,谷歌就是一個很好的例子。 早在1998年谷歌推出測試版搜尋引擎時,雅虎公司占主導地位,其他競爭者還包括infoseek、Lycos等,而在短短兩年內,谷歌就成為主導搜尋引擎供應商。 直到2003年,谷歌發佈一份關於MapReduce的檔,我們才有幸窺見到谷歌的後端架構。

谷歌的架構顯示了該公司如何能夠索引更多資料,以更快地獲得搜尋結果,以及比所有競爭對手更有效和更具成本效益地獲取這些結果。 谷歌做出的轉變是將複雜的資料分析任務分成簡單的子任務,這些子任務在並行商品伺服器中執行。 單獨進程被用於映射Map這些資料,然後將其縮小Reduce到中期或最終結果。 這種MapReduce框架最終通過Apache的Hadoop供企業使用。

Hadoop簡史

在2003年閱讀了谷歌的檔後,雅虎工程師Doug Cutting開發了基於JAVA的MapReduce,將其命名為Hadoop。 在2006年,Hadoop成為Apache軟體基金會Lucene(一種流行的全文檢索庫)的子專案,並在2008年成為頂級Apache專案。

從本質上講,Hadoop提供了對大型商品電腦集群間的捕捉、組織、存儲、搜索、共用、分析和視覺化不同資料來源(結構化、半結構化和非結構化),並能夠從幾十台伺服器擴展到上千台伺服器,每台伺服器都提供本地計算和存儲。

Hadoop包含兩個基本組成部分:首先是作為主要存儲系統的Hadoop分散式檔案系統(HDFS),HDFS複製和分發來源資料塊到伺服器集群的計算節點,以由一個或多個應用程式進行分析。 其次是MapReduce,它創建了一個軟體框架和程式設計模型,用於編寫能夠並行處理大量分散式資料的應用程式。

Apache Hadoop的開源性質創建了一個生態系統,使其功能、性能、可靠性和易用性都不斷進步。

保持簡單性和可擴充性

在名為「資料不合理的有效性」的文章中,來自谷歌的研究人員將簡單的物理方程式(例如E = mc2)與其他學科對比,並指出,「涉及人類而非基本粒子的科學更適合使用簡單的數學演算法」。

事實上,簡單的公式完全能夠解釋複雜的自然世界,以及理解難以捉摸的人類行為,這也是為什麼Hadoop普及的原因。

研究人員發現,相對簡單的演算法適用于大規模資料集,並能產生驚人的結果。 其中一個例子就是scene completion技術,它使用一個演算法來消除圖片上的某物(例如汽車),然後從成千上萬的圖片資料庫中尋找合適的照片進行「修補」,當圖片資料庫的照片增加到數百萬時,該演算法表現不佳。 當擁有足夠的資料,這種簡單的演算法表現極為出色。 尋找模式以及「修補」技術是當今很多資料分析應用程式的共同主題。

資料分析還面臨著另一個固有複雜性:非結構化資料與非結構化資料的增加。 非結構化資料(例如日誌檔、社交媒體、視頻等)的規模和重要性同時在增加,並且有些結構化在經過一些變化後也失去了結構。 傳統分析技術在產生結果前需要對非結構化和半結構化資料進行大量預處理,並且如果預處理存在某種缺陷的話,產生的結果可能是錯誤的。

Hadoop採用簡單演算法來分析原始形式的非結構化、半結構化和結構化資料以及產生有意義結果的能力是前所未有的,目前來看,也是無與倫比的。 MapReduce使我們能夠以漸進的方式來分析資料,而必須要進行複雜的資料轉換或者其他資料預處理,或提前創建任何模式或整合資料。

資料分析的價格和性能

Hadoop不僅提供卓越的資料分析功能和結果,還比傳統資料分析工具更具成本效益。 其原因是傳統資料分析工具的擴展資料分析能力主要遵循80/20規則:最初的小努力和付出能夠帶來大收益,但隨著資料集發展為大資料,這種回報會減少。

形成鮮明對比的是,Hadoop可以線性擴展,這是有效且符合成本效益的資料分析的關鍵因素。 隨著資料集的增長,傳統資料分析環境規模呈指數增長,為獲取洞察力需要投入更多額外費用,這最終讓人望而卻步。 而對於Hadoop,伺服器集群能夠隨著資料集數量和規模的增長而直接附加存儲線性地擴展規模。

Hadoop的這些優勢是其在基於web的企業和資料密集型企業快速普及的主要原因。

然而,Hadoop部署面臨的主要挑戰仍然是其檔案系統。 HDFS是append-only(只允許在這個檔之後追加資料)存儲要求資料裝在Hadoop集群中,然而再輸出後處理以供不支援HDFS API的其他應用程式使用。

Hadoop在較大型企業部署的另一個障礙是需要採取使環境可靠的特殊措施。 需要不斷監控Hadoop以確保單點故障不會導致災難,在資料丟失的情況下,資料會被重新載入到Hadoop集群。

衝破障礙

Hadoop的這些問題已經成為過去式。 開源社區創造了一個充滿活力的生態系統,使Hadoop不斷完善。 一些公司現在正在提供基於開源Hadoop的商業產品。

越來越多商業Hadoop產品的推出推動了Hadoop的更廣泛普及。 這些商業產品使Hadoop更易於整合到企業,以及提供企業級的性能和可靠性。 實現這些改進的方法之一是使用現有的標準通訊協定作為基礎,來使傳統環境和Hadoop環境無縫集成。

結束還是剛剛開始?

資料分析模式正在轉變,這為企業帶來了真正的機會。 Hadoop讓所有企業能夠通過這種模式轉變所提供的洞察力優勢來獲得顯著的競爭優勢。

Hadoop無疑是一個改變遊戲規則的技術,並且隨著企業級商業Hadoop產品的推出,Hadoop本身也正在發生轉變。 這些下一代解決方案正引領新的資料分析模式。 (鄒錚編譯)

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.