標籤:結果 http mapreduce span strong 擷取 nbsp source .sh
在一個完整的大資料處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要資料擷取、結果資料匯出、任務調度等不可或缺的輔助系統,而這些協助工具輔助在hadoop生態體系中都有便捷的開源架構。
日誌採集架構Flume
Flume是一個分布式、可靠、和高可用的海量日誌採集、彙總和傳輸的系統。
Flume可以採集檔案,socket資料包等各種形式來源資料,又可以將採集到的資料輸出到HDFS、hbase、hive、kafka隊列等眾多外部儲存系統中
一般的採集需求,通過對flume的簡單配置即可實現
Flume針對特殊情境也具備良好的自訂擴充能力,因此,flume可以適用於大部分的日常資料擷取情境
運行過程
1、 Flume分布式系統中最核心的角色是agent,flume採集系統就是由一個個agent所串連起來形成
2、 每一個agent相當於一個資料傳遞員,內部有三個組件:
a) Source:採集源,用於跟資料來源對接,以擷取資料
b) Sink:下沉地,採集資料的傳送目的,用於往下一級agent傳遞資料或者往最終儲存系統傳遞資料
c) Channel:angent內部的資料轉送通道,用於從source將資料傳遞到sink
Flume支援眾多的source和sink類型
F
lume的安裝部署
1、Flume的安裝非常簡單,只需要解壓即可,當然,前提是已有hadoop環境
上傳安裝包到資料來源所在節點上
然後解壓 tar -zxvf apache-flume-1.6.0-bin.tar.gz
然後進入flume的目錄,修改conf下的flume-env.sh,在裡面配置JAVA_HOME
2、根據資料擷取的需求配置採集方案,描述在設定檔中(檔案名稱可任意自訂)
3、指定採集方案設定檔,在相應的節點上啟動flume agent
flume、sqoop、oozie