大資料進入企業 應如何繼承傳統的資料處理方式

來源:互聯網
上載者:User

當Hadoop進入企業,必須面對一個問題,那就是怎樣解決和應對傳統並成熟的IT資訊架構。 業內部,如何處理原有的結構化資料是企業進入大資料領域所面對的難題。

當 Hadoop進入企業,必須面對一個問題,那就是怎樣解決和應對傳統並成熟的IT資訊架構。 以往MapReduce主要用來解決日誌檔分析、互聯網點擊流、互聯網索引、機器學習、金融分析、科學類比、影像存儲、矩陣計算等非結構化資料。 但在企業內部,如何處理原有的結構化資料是企業進入大資料領域所面對的難題。 企業需要既能處理非結構化資料,又能處理結構化資料的大資料技術。

在大資料時代,Hadoop主要用來處理非結構化資料,而如何處理傳統IOE架構的結構化資料則成為企業面臨的一個難題。 在此背景下,既能處理結構化資料又能處理非結構化資料的SQL on Hadoop應運而生。

SQL on Hadoop是2013年最熱門的話題,它由Cloudera Impala的發佈版推到熱議。 目前,SQL on Hadoop正處於起步階段,其技術實踐方式很多樣。 而企業由於已經適應了在小資料上的靈活處理方式,轉到Hadoop一下子變得無所適從,所以對SQL on Hadoop的呼聲越來越大。 SQL on Hadoop既要保證Hadoop性能,又要保證SQL的靈活性。 關於SQL on Hadoop,業界有不同的看法,業內專業大資料公司也在積極的研究。

1.傳統方式的DB on TOP

一些北美廠商採用傳統方式的DB on TOP來解決SQL on Hadoop,即組合利用不同的計算框架面向不同的資料操作。 其中以EMC Greenplum、Hadapt、Citus Data為代表。 Hadapt以PostgreSQL架接在Hadoop上,來完成對結構化資料的查詢。 它提供了統一的資料處理環境,利用Hadoop的高擴充性和關係資料庫的高速性,分開執行Hadoop和關係資料庫之間的查詢。 Citus Data通過把多種資料類型轉化成資料庫的原生類型,運用分散式處理技術來完成查詢。

圖1、Hadapt

DB on Top 方式是業內同事解決結構化與非結構化資料的最初嘗試,最早由Hadapt公司在2010年提出,也就緒了能夠跑在Amazon EMR上的社區版。 但是,其本質是資料在兩種計算框架中分別存放,如圖1所示,結構化資料存儲于高性能關聯式資料引擎(High-Performance Relational Engine for Structured Data), 非結構化資料存儲于Hadoop分佈檔案系統(Hadoop Distributed File System for Unstructured Data),對兩種類型的資料交互依靠查詢的切片執行, 中繼資料的組織控制必然是系統擴展演變中的過度技術。

2.原生態Hive的優化

在開源社區方面,以Hortonworks的Stinger、Apache Drill為例。 Hortonworks的Stinger通過對原生態Hive做改造,優化SQL查詢速度,使其達到5-30秒,完成對SQL查詢。 Apache Drill通過對原生態的Hive做優化,完成對SQL的查詢。

  

圖2、Hortonworks Stinger

開源社區原生態的改造,目標是建立共同的計算框架和介面,目前各個開源專案雖然還只是孵化階段,也還是獲得了業內的支援,例如Apache的Drill專案,因開放的資料格式和查詢語言, 就獲得了專業的Hadoop商業發行版供應商MapR的支援。

開源社區的發展和貢獻,將成為推動SQL on Hadoop大規模落地行業的主要力量。

3.人機流程交互

在國內,對於SQL on Hadoop,主要是從SQL的資料處理流程和即席分析兩方面來進行。 在SQL的資料處理流程方面,很多操作是可以通過對資料處理流程進行預定義,然後對 MapReduce作業進行批次處理。 例如ETL流程處理。 ETL流程處理是對資料進行抽取、清洗、轉換、載入的階段。 在此階段,通過對資料流程程進行預定義,在一個人機交互的友好介面上把MapReduce作業預先組裝好,進行拖拽等操作形成工作流,來解決傳統的SQL。

4.多級索引結構的即席查詢

大資料的即席查詢是大資料所面臨的一個難題。 在PB級別的資料,其查詢效率和查詢性能都不盡如意。 在傳統DW環境下,企業多採用OLAP cube。 OLAP cube通過對資料進行預處理,將資料根據維度進行最大限度的聚類運算,通過對維度的配置,可以完成對小資料即席分析。 但是對於PB級別的大資料環境,如何建立大資料的cube來兼顧前端應用的靈活性和查詢效率呢? HBase自帶的雜湊快速定位功能可以實現即席查詢的毫秒級回應和高併發。 天雲大資料通過在HBase上構建多級索引以及引用MPP方式基於統計分析的分區設計,不僅解決了HBase查詢不靈活的特點,還能滿足對PB級別大資料的即席查詢。

5.操作型SQL on Hadoop

對於操作型Hadoop,其對SQL on Hadoop 資料查詢、回應等已經由存儲磁片級轉移到記憶體上。 由於其分佈記憶體一致性要求,使得其發展比較緩慢,目前還不能達到企業應用級別。 目前,分散式記憶體計算已漸趨繁榮,比較有代表的技術先鋒如Splice Machine、SQLstream等。 目前對於操作型Hadoop,業界正在積極探索中。

面對企業多年運營所積累的大量結構化資料,SQL on Hadoop無疑成為了分散式運算框架進入企業傳統計算市場的敲門磚,但我們更清楚的認識到,Hadoop等主流分散式運算的舞臺遠不如此, 它為企業計算定義了一個更為廣闊的零消費市場(White Space)解決SQL之外的計算。

紛繁複雜的世界不可能簡單地由平面展開的表結構來描述,SQL能夠勝任查詢和數值計算工作。 但大量碎片的文字資訊、影像圖片如何計算?「 買入」+「大漲」等於什麼?「 女性」+「Dior」等於「優雅」還是「性感」?能否用Sum、Group By、Join SQL來做非結構化資訊的主題縮略、分類、聚類,我們將在後續文章中探討這些話題。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.