使用Apache Hadoop、Impala和MySQL進行資料分析

來源:互聯網
上載者:User
關鍵字 示例 所有 可以 dfs

HTTP://www.aliyun.com/zixun/aggregation/14417.html">Apache Hadoop是目前被大家廣泛使用的資料分析平臺,它可靠、高效、可伸縮。 Percona公司的Alexander Rubin 最近發表了一篇博客文章介紹了他是如何將一個表從MySQL匯出到Hadoop然後將資料載入到Cloudera Impala並在這上面運行報告的。 在Alexander Rubin的這個測試示例中他使用的集群包含6個數據節點。 下面是具體的規格:

資料匯出有很多方法可以將資料從MySQL匯出到Hadoop。 在Rubin的這個示例中,他簡單地將ontime表匯出到了一個文字檔中:select * into outfile '/tmp/ontime.psv'

FIELDS TERMINATED BY ','

from ontime;你可以使用「|」 或者任何其他的符號作為分隔符號。 當然,還可以使用下面這段簡單的腳本直接從www.transtats.bts.gov上下載資料。

載入Hadoop HDFS

Rubin首先將資料載入到了HDFS中作為一組檔。 Hive或者Impala將會使用導入資料的那個目錄,連接該目錄下的所有檔。 在Rubin的示例中,他在HDFS上創建了/data/ontime/目錄,然後將本地所有匹配On_Time_On_Time_Performance_*.csv模式的檔案複製到了該目錄下。

在Impala中創建外部表

當所有資料檔案都被載入之後接下來需要創建一個外部表:

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.