大資料生態開源工具

來源:互聯網
上載者:User

標籤:

1. Flume:日誌收集軟體,裡面的重要概念是agent,包括 source -> channel -> slink,sourc,slink 可以為hdfs,jdbc ... 一個簡單的情境是用Flume監測一個檔案夾fdir的資料變化,這時fdir就是source,並將變化傳送到hdfs_path上,hdfs_path就是slink。

2. Sqoop:主要用於hadoop data(hdfs/hive/hbase)和 structured database(relational database)之間的 data export/import,比如 Hive->mysql,mysql->HBase。

3. ZooKeeper:現在大多的資料存放區,server都以叢集的形式出現。Zookeeper就是協調叢集一致性問題。還沒看懂~~

4. Hive:是個資料倉儲,適用於全表查詢的一些操作。Hive本身不儲存資料,其本身依賴於HDFS和MapReduce,其將HDFS上的結構化檔案對應為一張邏輯資料表。

5. HBase:是個資料庫,可以建索引。

6. Pig:資料流程式設計語言,提供了比MapReduce更豐富的API操作,比如join。

大資料生態開源工具

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.