大資料的救世主:Apache Hadoop和Hive

來源:互聯網
上載者:User

Apache Hadoop和MapReduce吸引了大量大資料分析專家和商業智慧專家的眼球。 然而將Hadoop分散檔案系統廣泛化,或能用JAVA語言編寫或執行Mapreduce工作則需要真正嚴格上乘的軟體發展技術。 Apache Hive將是唯一的解決辦法。

Apache軟體基礎工程Hive的資料庫組成部分,也是基於雲的Hadoop生態系統,提供了基於語境的查詢語句稱作Hive查詢語句。 這套語句將SQL類查詢語句自動翻譯成MapReduce工作指令。

相關資料庫,如IBM DB2,Oracle和SQL伺服器以及資料庫應用是商業智慧領域的主力軍。 大部分資料分析專家都掌握了較強較全面的SQL查詢語句技能。 同樣道理,商業分析專家普遍掌握利用Excel表單,Pivot表格和圖示匯總資料的技能。

我們看一例端對端商業智慧專案在Windows Azure系統中是如何運行的。 首先,大量資料形成,然後Excel圖表中繪出美國具有航行資質的航空公司的航班正點到達資料,整個過程不需要編寫任何程式碼。

Windows就Azure CTP與Apache Hadoop的合作

2011年11月,微軟SQL伺服器研究小組宣佈Windows Azure系統或HadoopOnAzure系統下共用技術預覽成型。 微軟強調這將簡化Hadoop使用和設置,可以生成Hive查詢來獲取分析Hadoop Excel形式生成的非結構化資料,增強了Windows Azure的彈性。

Hadoop On Azure CTP是不對任何人公開資訊的。 使用者需要在微軟連結上填寫一個簡單的問卷調查來獲得邀請。 收到邀請後,開始流覽HadoopOnAzure網站,用Windows Live ID號碼登陸。 輸入全球唯一的DNS使用者名,選擇初始Hadoop群大小,輸入一個群登錄名和密碼,點擊獲取群圖示。 (見圖1)

圖1收到HadoopOnAzure CTP邀請後,使用者只需簡單的幾部操作即可修改一個群

處理群需要花費將近15到30分鐘時間。 流覽HadoopOnAzure CTP資源是免費的,但是群要求需要使用者在第一個24小時期間最後6小時內更新簽名,在使用過程中,證書需要每天更新一次。

使用者需要Windows Azure簽名和一個存儲帳號才可將Windows Azure群作為一種長期資料存儲方式,否則一旦退出群,使用者存儲在Hadoop Distributed FileSystem中的資料將會丟失。 若沒有簽名,使用者可以申請註冊免費試用三個月的Windows Azure帳號,這個帳號贈送每位使用者20GB存儲空間以及上百萬次存儲傳輸功能和20GB的外網頻寬。

SQL Azure群在大資料使用領域的擴張

這個Apache Hive專案從美國聯邦航空署提取資料,收集了2011年後5個月到2012年1月共六個月以來航班正點到達的資訊及延誤資訊。 6頁文本資料子集包涵聯邦航空署檔欄,欄下有500,000行共25MB容量的資訊。

使用者需要將資料上載到一個資料夾中,資料夾涵括在群容器內,Hive可搜索到這些資料。 我的博客中有如何創建Azure群來源資料的詳細步驟。 上面也有資料庫資訊,以及如何用Windows Live SkyDrive帳號下載資料,最後怎樣將資料上傳到微軟芝加哥資料中心的Windows Azure群。

當群資料形成後,,MapReduce門戶登錄頁面彈出,頁面呈現出都市化的流覽頁面,並彈出群和帳戶管理對話方塊。 (見圖2)

圖2:HadoopOnAzure的MapReduce控制板頁面特性和功能。

複製Windows Azure 監管中心的初始登錄密碼保存到剪切板,點擊管理群,打開頁面然後點擊設置ASV(Azure存儲庫),將Windows 存儲帳戶作為Hive桌面的資料存儲中心。 或者,使用者可以將Hive桌面的資料存儲到Amazon S3(建議存儲服務)或Windows Azure資料集中地和資料超市。
輸入你的存儲帳號,在密碼框中粘貼初始登錄密碼數值,點擊保存設置,Hive即可成功登錄資料庫。 如果證書獲得認證,使用者將收到短信通知Azure帳號設置成功。

不像HDFS,在Hive表格中,就算最簡易的索引碼資料都需要圖表描繪。

要將非HDFS檔,外部檔,分隔資料轉換成Hive圖表,給其列命名,定義資料類型,使用者需要運行創建外部表格,看一下實例。 用Hive語句創建fightdata資料夾,檔中描繪的是載客飛機的資訊。

CREATE EXTERNAL TABLE flightdata_asv (
year INT,
month INT,
day INT,
carrier STRING,
origin STRING,
dest STRING,
depdelay INT,
arrdelay INT
)
COMMENT 'FAA on-time data'
ROW FORMAT DELIMITED FIELDS TERMINATED by '9'
STORED AS TEXTFILE
LOCATION 'asv://aircarrier/flightdata';


ApacheHive沒有太多資料類型,並且不支援日期或時間欄位,因此來源資料*.csv對應的整數位段如年,月和日數值正好有利於資料的維護。 出發和到達數值以分鐘的形式呈現。

執行動態Hive語句,請點擊MapReduce動態控制板,然後點擊Hive按鈕打開動態Hive頁面,頁面頂部出現唯讀文字方塊,點擊下方文字方塊為說明指示語句。 (見圖3)

圖3:Hive圖表選項清單包括新圖表標題,列儲存格顯示某個選定圖表欄位名。 點擊﹥﹥鍵在儲存格中插入選定的條目。

(責任編輯:呂光)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.