這是一個建立於 的文章,其中的資訊可能已經有所發展或是發生改變。
項目背景
某企業是一家專註於車連網、視頻CDN等應用技術的科技創新型企業,擁有智能車載、vsdn等多個業務系統。這些系統每天都會產生大量日誌,以往的日誌管理系統不能滿足即時分析的需求。由於平台查詢響應慢等原因,當某個系統出現問題時,所產生的日誌資料無法被及時的查看,也就無法定位問題所在,造成業務人員有資料卻用不起來的窘狀。
如何充分整合這些日誌資料,充分挖掘其價值,是企業急需解決的問題。
項目目標
DataHunter最終為該企業提供一套包括頻寬、調度、流量日誌解析入庫等功能模組的完整解決方案。讓業務人員能夠在看板上即時查看日誌資料,並可以根據這些資料實現自由配圖和維度查詢。
業務要求
1、頻寬日誌即時分析,實現分鐘彙總統計 (全國共有80多個節點,資料量每天大約35億條,1.6TB)
2、支援按照不同的時間粒紋、不同產品、不同客戶、不同節點進行資料即時統計分析。
3、最佳化平台查詢響應速度,豐富可視化介面。
主要問題
1.資料擷取困難
以往該企業的日誌資訊都是通過手工指令碼收集。因為各種機器之間資料隔離嚴重、日誌量大且種類繁多等因素影響,難度可想而知。
2.日誌種類繁雜
多種日誌需實現不同的業務要求,單一的日誌分析難以滿足要求。
3.日誌分析緩慢
受限於日誌的大小和格式,分析的速度非常緩慢。
4.資料無法展現
日誌資料難以通過報表或圖形展現,無法協助業務人員及時擷取有價值的資訊。
架構實現
1. DataHunter基於Golang自主研發的DhBeat,滿足低負載高效能的資料擷取、分析、上報,支援150w/s的資料擷取需求。
2. NATS是一個開源的、輕量級的、高效能的分布式訊息通訊系統,實現了高延展性和優雅的發布/訂閱模型。
3. DataHunter基於Golang自主研發的K2db,滿足低負載高效能的資料訂閱、分析、入庫需求。
4. Pipeline 是一種流式關聯式資料庫,這種資料庫的特點是自動處理流式資料,不儲存未經處理資料,只儲存處理後的資料,所以非常適合當下流行的即時資料流式資料處理
5. Citusdb分散式資料庫可對 Pg 資料庫進行伸縮以適合大資料的處理。可在叢集中進行自動分區和片段複製,查詢需求可在叢集中進行分散式處理,充分利用叢集中每個節點的計算能力
6. DH可視化分析平台,基於DH核心產品的可視化組態工具,可以即時展示各地區、產品的即時頻寬、流量、調度情況。
▲統計不同客戶的頻寬
▲統計不同節點的頻寬
平台核心價值
1.多資料來源融合
業務資料、日誌資訊、公用資料,輕鬆融合,匯總分析輕鬆掌控業務
▲調度日誌與業務資料的結合
2.即時資料展示
打通各個系統,最終實現即時資料處理及關鍵計量顯示,每一刻都在保持與前線同步,便於業務人員監控日誌資訊。
▲即時頻寬統計
3.互動式分析
業務人員可以根據即時資料配置組建圖表,並利用這些圖表進行協同過濾和任意維度資料切入,探索式分析快速找到問題的根源。
▲任意維度摘要彙總