在未來,當管理員搭建伺服器的時候,他很可能會給伺服器集群、資料庫、中介軟體軟體裝上MapReduce。
加州大學聖地牙哥分校研究員Dionysios Logothetis在日前舉行的Usenix年度會議上表示,MapReduce可以在伺服器上直接被用來分析日誌資料,無需在各個集群上單獨分析,也可以大幅縮短分析資料的時間。
MapReduce結構
利用該方法,「資料分析可以從專業集群上轉移到日誌伺服器上,從而避免昂貴的資料移轉成本支出」,Logothetis表示。 MapReduce首先是由谷歌公司推出來的,它越來越多地被用來分析跨伺服器和節點的大規模資料。 目前,它主要擔當HadoopHTTP://www.aliyun.com/zixun/aggregation/14345.html">資料處理平臺的一個組成部分。
雖然MapReduce大部分都使用在專業集群上,但研究人士表示分析軟體的框架版本也可以成為網路伺服器的一部分。 當前商業網頁關於使用者的詳細日誌資訊,可以為廣告定位、網站安全監控和調試提供資料支援。
根據統計,為繁忙的電子商務網站提供服務的單個伺服器,在每秒鐘時間內能生成1MB至10MB有價值的日誌資料。 而在一天之內,它可以生成幾十兆百萬位元組有價值的資料量。 平均而言,1000台這樣的伺服器在一天之內能生成86TB容量的資料資訊。 比如著名的社交網站Facebook一天所產生的資料量為100TB。
通常來說,大型公司比如Facebook這樣的網站都會收集不同伺服器上的資料,然後載入到Hadoop集群並使用 MapReduce分析其結果。
MapReduce實例
以往「先存儲後查詢」的方法具有諸多弊端。 傳輸不同伺服器上的資料會耗費大量的頻寬資源,對網路構成巨大壓力。 在進行資料分析之前,Facebook會丟棄80%的日誌資料。 通過使用這種新技術,這些資料就無需再進行傳輸了,更不會發生資料丟失的嚴重問題。
MapReduce在未來的伺服器上可能將會成為一種標準配備,它將對資料進行分析並將分析後的結果傳達給中央資料獲取點。 研究人士將這一方法稱之為「in-situ MapReduce (iMR)」。
iMR旨在補充而不是取代傳統的集群架構,它是為了完成分散式存儲系統中的日誌資料和其他資料後續分析。 作為一項程式,iMR能複製所有的MapReduce APIs,並執行MapReduce相類似的功能、對過濾的資料進行命名並彙集分析結果 。 不同之處在于,它能基於最新資料的基礎上持續進行分析。
目前,研究員已經創建了一個iMR原型,通過iMR使用者可以指定需要分析處理的資料範圍,比如過去60秒鐘收集的所有資訊。 此外,使用者還可以設定多久提交一次分析結果並進行傳送,比如可以指定每15秒鐘分析一次等。
Logothetis表示,網路伺服器可能花費絕大多數資源在他們本應進行的工作上,被稱為給使用者提供服務。 但是iMR可以利用剩下的迴圈處理日誌資料。
據悉,研究員為此專門制定了一個計畫以建立處理速度和結果完整性之間的平衡,如果需要更快地獲得結果,那麼每個伺服器可以忽略掉一些很耗費時間的資料,從何得到一個不那麼完全,但仍是有意義的結果。 而如果想得到一個全面的分析,則需要很長的時間和很大的伺服器資源去完成。
當然,一個只運行少量伺服器的組織可能不會從iMR中受益。 但是大的運營商,例如搜尋引擎,社交網路和電子商務網站將會體驗到iMR的價值。
(責任編輯:admin)