flume、sqoop、oozie

來源:互聯網
上載者:User

標籤:結果   http   mapreduce   span   strong   擷取   nbsp   source   .sh   

在一個完整的大資料處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要資料擷取、結果資料匯出、任務調度等不可或缺的輔助系統,而這些協助工具輔助在hadoop生態體系中都有便捷的開源架構。

 

日誌採集架構Flume

 Flume是一個分布式、可靠、和高可用的海量日誌採集、彙總和傳輸的系統。

 Flume可以採集檔案,socket資料包等各種形式來源資料,又可以將採集到的資料輸出到HDFS、hbase、hive、kafka隊列等眾多外部儲存系統中

一般的採集需求,通過對flume的簡單配置即可實現

 Flume針對特殊情境也具備良好的自訂擴充能力,因此,flume可以適用於大部分的日常資料擷取情境

運行過程

 

1、 Flume分布式系統中最核心的角色是agent,flume採集系統就是由一個個agent所串連起來形成

2、 每一個agent相當於一個資料傳遞員,內部有三個組件:

a) Source:採集源,用於跟資料來源對接,以擷取資料

b) Sink:下沉地,採集資料的傳送目的,用於往下一級agent傳遞資料或者往最終儲存系統傳遞資料

c) Channel:angent內部的資料轉送通道,用於從source將資料傳遞到sink

 

 

 

Flume支援眾多的source和sink類型

F lume的安裝部署

1、Flume的安裝非常簡單,只需要解壓即可,當然,前提是已有hadoop環境

上傳安裝包到資料來源所在節點上

然後解壓  tar -zxvf apache-flume-1.6.0-bin.tar.gz

然後進入flume的目錄,修改conf下的flume-env.sh,在裡面配置JAVA_HOME

2、根據資料擷取的需求配置採集方案,描述在設定檔中(檔案名稱可任意自訂)

3、指定採集方案設定檔,在相應的節點上啟動flume agent

 

 

 

 

flume、sqoop、oozie

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.