標籤:
【引言】這篇文章原載於內刊,現發佈於此。內容有所刪減。
基於大資料分析的安全管理平台技術研究及應用
Research and Application of Big Data Analysis Based Security Management Platform
Last Modified By yepeng @ 2014-1-14
【內 容摘要】本文首先通過介紹大資料的起因,給出了大資料的定義和特徵描述,並簡要說明了當前大資料的研究概況。接下來,本文闡釋了大資料分析技術,對大資料 在資訊安全領域尤其是安全管理平台領域的應用做了深入分析,並給出了基於大資料安全分析技術的安全管理平台的基本特徵。最後,針對一個基於大資料安全分析 技術的新一代安全管理平台從5V角度進行了深入介紹,並強調了安全分析師的關鍵作用。
無所不在的大資料
毫無疑問,我們已經進入了大資料(Big Data)時代。人類的生產生活每天都在產生大量的資料,並且產生的速度越來越快。根據IDC和EMC的聯合調查,到2020年全球資料總量將達到40ZB。
什麼是大資料?大資料早就存在,只是一直沒有足夠的基礎實施和技術來對這些資料進行有價值的挖據。隨著儲存成本的不斷下降、以及分析技術的不斷進步,尤其是雲端運算的出現,不少公司已經發現了大資料的巨大價值:它們能揭示其他手段所看不到的新變化趨勢,包括需求、供給和顧客習慣等等。比如,銀行可以以此對自己的客戶有更深入的瞭解,提供更有個性的定製化服務;銀行和保險公司可以發現詐騙和騙保;零售企業更精確探知顧客需求變化,為不同的細分客戶群體提供更有針對性的選擇;製藥企業可以以此為依據開發新藥,詳細追蹤藥物療效,並監測潛在的副作用;安全公司則可以識別更具隱蔽性的攻擊、入侵和違規。
圖:硬碟每GB的成本變化(1980-2009年)【來源:http://www.mkomo.com/cost-per-gigabyte】
《華爾街日報》將大資料時代、智能化生產和無線網路革命稱為引領未來繁榮的三大技術變革。麥肯錫公司的報告指出資料是一種生產資料,大資料是下一個創新、競爭、生產力提高的前沿。世界經濟論壇的報告認定大資料為新財富,價值堪比石油。
不論從技術、還是商業角度,大資料都成為當下絕對的熱點。2013年,Gartner將大資料列為未來資訊架構發展的10大趨勢之首。Gartner預測將在2011年到2016年間累計創造2320億美元的產值。
大資料的定義
如何定義大資料?《大資料的衝擊》一書將大資料通俗定義為“用現有的一般技術難以管理的大量資料的集合”,並廣義地定義為“一個綜合性概念,它包括因具備3V(海量/高速/多樣,Volume / Variety/Velocity)特徵而難以進行管理的資料,對這些資料進行儲存、處理、分析的技術,以及能夠通過分析這些資料獲得實用意義和觀點的人才和組織。”
Gartner將大資料定義為“海量、高速、多變的資訊資產,需要對它進行經濟的、創新性的資訊處理從而獲得超越以往的洞察力、決策支援能力和處理的自動化”(high volume, velocity and/or variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation)。
大資料的基本特徵
大資料的三個公認的基本特點是3V,即海量、高速和多變。海量是指資料容量越來越大;高速表示需要處理的速度和響應的時間越來越快,對系統的延時要求相當高;多變就要處理各種各樣類型的資料,包括結構化的、半結構化的、甚至是非結構化的資料。
IBM在上述三個特點基礎之上增加了一個V(Veracity),即“真實性”、“準確性”。IBM認為只有真實而準確的資料才能讓對資料的管控和治理真正有意義。
此外,業界還有人總結出其它的大資料特點,例如低價值密度(Value)、存活性(Viability),等等。低價值密度是指大資料中真正有意義的資訊含量比重低;存活性是指特定情況下的大資料具有很強的時效性。
大資料的研究概況
在IT領域,大資料也是最熱門的技術領域之一。Gartner在2012年繪製的Hype Cycle曲線展示出了當前大資料技術欣欣向榮的一番景象。
Gartner將大資料相關技術分為三個門類,分別是大資料支撐技術、大資料應用技術和針對新型資料進行分析的技術。
我國工程院院士鄔賀銓將大資料技術從所面臨的挑戰的角度分為四個方面,分別是資料收集、資料存放區、資料處理和資料視覺效果。
微軟張亞勤將大資料劃分為三個層次,分別是資料的管理、資料的擴充和資料的呈現。
IBM的Stephen Watt給出了一個巨量資料生態系統的模型,將大資料技術劃分為7個部分,包括資料產生、資料存放區、資料處理、資料分享、資料檢索、資料分析、資料視覺效果,如:
大資料需要資料分析師
以上所有針對大資料的定義和特點的闡述,都缺少一個重要的大資料群組成要素——資料分析師(或者稱為資料科學家,Data Scientist)。在當前技術條件下,大資料分析的結果要想獲得最大程度的價值發揮需要藉助專業的資料分析人員。
Natahn Yau首先提出“資料科學家就是能夠從大型資料集中析取出資料,並提供某些可供非資料專家使用的東西的人”。《福布斯》雜誌認為“資料科學家就是採用科學方法、運用資料採礦工具尋找新的資料洞察的工程師”。《哈佛商業評論》將資料科學家列為二十一世紀最性感的職業。
這表明,大資料技術要發揮作用仍然需要人的參與,並且是專業的資料分析師的參與。
大資料安全分析
大資料分析的定義
大資料技術的核心就是大資料分析(Big Data Analysis)。一般地,人們將大資料分析定義為一組能夠高效儲存和處理海量資料、並有效達成多種分析目標的工具及技術的集合。
Gartner將大資料分析定義為追求顯露模式檢測和發散模式檢測,以及強化對過去未串連資產的使用的實踐和方法(the practices and technology used to pursue emerging and divergent pattern detection as well as enhance the use of previously disconnected information assets),意即一套針對大資料進行知識發現的方法。
通俗地講,大資料分析技術就是大資料的收集、儲存、分析和可視化的技術,是一套能夠解決大資料的4V(海量、高速、多變、低密度)問題,分析出高價值的資訊的工具集合。
大資料分析的基本技術支撐
從技術支撐架構的角度來看,大資料分析是一個軟體技術架構(Framework),主要包括以下能力:
1) 能夠處理特別巨大的資料集(Volume)
2) 提供極快的資料插入操作(Velocity)
3) 能夠操作多種資料類型(Variety)
4) 要支援即時資料分析和曆史資料分析
5) 提供多種資料分析方法/模型
6) 使用分布式平行處理機制(Volume & Velocity)
其中,大資料分析基本的特徵就是這個軟體技術架構應該具有一個分布式開發架構。這個分布式開發架構可以是開源的Hadoop,或者其它具有相似分布式並行計算能力的架構,能夠實現Map/Reduce計算,能夠實現分散式運算節點的統一調度和彈性部署。基於這個分布式開發架構,實現海量資料的分布式採集、分布式儲存、分布式分析計算。
大資料分析的另一個技術支撐是海量資料的儲存技術。面對海量的資料,傳統的關係型資料庫已然無法滿足需要,需要進行改進或者革新。大資料分析系統的軟體技術架構必然會使用某種分散式資料庫技術或者NoSQL(非關係型資料庫)技術。
此外,一個實用的大資料分析系統一般都要同時具備即時資料分析與曆史資料分析能力。要獲得曆史資料分析能力,通常就是藉助分布式開發架構的Map/Reduce批處理計算來實現。當然,有的大資料曆史分析系統還具備互動式計算能力(例如Google Dremel),實現快速查詢。而要獲得即時資料分析能力,分布式開發架構及其Map/Reduce計算模型就顯得力不從心了。這時候需要一個即時的流資料處理引擎,通常是採用CEP(Complex Event Processing,複雜事件處理)或者ESP(Event Stream Processing,事件流處理)技術的流資料處理引擎。
綜上所述,從開發人員的角度來看,大資料分析的底層技術支撐包括三個:
1) 分散式運算架構(例如Hadoop,或者其他具有Map/Reduce機制的計算架構)
2) 分布式儲存機制(例如分散式資料庫、HDFS、NoSQL)
3) 流式計算架構(例如CEP、ESP)
從大資料分析到大資料安全分析
當前網路與資訊安全領域,正在面臨多種挑戰。一方面,企業和組織安全體系架構日趨複雜,各種類型的安全資料越來越多,傳統的分析能力明顯力不從心;另一方面,新型威脅的興起,內控與合規的深入,傳統的分析方法存在諸多缺陷,越來越需要分析更多的安全資訊、並且要更加快速的做出判定和響應。資訊安全也面臨大資料帶來的挑戰。
安全資料的大資料化主要體現在以下三個方面:
1) 資料量越來越大:網路已經從千兆邁向了萬兆,網路安全裝置要分析的資料包資料量急劇上升。同時,隨著NGFW的出現,安全網關要進行應用程式層協議的分析,分析的資料量更是大增。與此同時,隨著安全防禦的縱深化,安全監測的內容不斷細化,除了傳統的攻擊監測,還出現了合規監測、應用監測、使用者行為監測、效能檢測、事務監測,等等,這些都意味著要監測和分析比以往更多的資料。此外,隨著APT等新型威脅的興起,全包捕獲技術逐步應用,海量資料處理問題也日益凸顯。
2) 速度越來越快:對於網路裝置而言,包處理和轉寄的速度需要更快;對於安管平台、事件分析平台而言,資料來源的事件發送速率(EPS,Event per Second,事件數目每秒)越來越快。
3) 種類越來越多:除了資料包、日誌、資產資料,還加入了漏洞資訊、配置資訊、身份與訪問資訊、使用者行為資訊、應用資訊、商務資訊、外部情報資訊等。
於是,業界出現了將大資料分析技術應用於資訊安全的技術——大資料安全分析 (Big Data Security Analysis,簡稱BDSA),也有人稱做大安全資料分析(Big Security Data Analysis)。兩者儘管表述有差異,但內涵一致。前者強調基於大資料技術的安全分析,分析安全問題;後者強調大資料分析的對象是安全資料。
在網路安全領域,大資料安全分析將包括以下幾個應用領域:
1) 安全事件管理和安全管理平台:這將是大資料安全分析的核心應用,也被稱作安全分析平台(Security Analytics Platform),後文將詳述。
2) APT檢測,包括全包捕獲技術
3) 0day惡意程式碼分析,包括沙箱技術
4) 網路取證分析
5) 網路異常流量檢測
6) 大規模使用者行為分析
7) 安全情報分析
8) 信譽服務
9) 代碼安全分析
2012年3月,Gartner發表了一份題為《Information Security Is Becoming a Big Data Analytics Problem》的報告,表示資訊安全問題正在變成一個大資料分析問題,大規模的安全資料需要被有效地關聯、分析和挖掘,並預測未來將出現安全分析平台,以及部分企業在未來五年將出現一個新的崗位——“安全分析師”或“安全資料分析師”。
對於大資料安全分析而言,最關鍵的不在於大資料本身,而在於對這些資料的分析方法。大資料安全分析可以用到大資料分析的所有普適性的方法和技術,但當應用到網路安全領域的時候,還必須考慮到安全資料自身的特點和安全分析的目標,這樣大資料安全分析的應用才更有價值。例如,在進行異常行為分析,或者惡意程式碼分析和APT攻擊分析的時候,分析模型才是最重要的。其次,才是考慮如何利用大資料分析技術(例如並行計算、即時計算、分散式運算)來實現這個分析模型。
基於大資料分析技術的安全管理平台
安全管理平台呼喚大資料分析
在所有網路安全領域中,大資料分析對安全管理平台(SOC平台)及安全資訊與事件分析(SIEM)系統的影響最為深遠。這也是與它們先天的大資料分析特質密切相關的。
安全管理平台,有的也稱作SOC(Security Operations Center,安全運營中心)平台,一般是指以資產為核心,以安全事件管理為關鍵流程,採用安全域劃分的思想,建立一套即時的資產風險模型,協助管理員進行事件分析、風險分析、預警管理和應急響應處理的集中安全管理系統。
安全管理平台的核心之一便是安全資訊與事件管理,也稱作SIEM(Security Information and Event Management)系統。通常,SIEM為來自企業和組織中所有IT資源(包括網路、系統和應用)產生的安全資訊(包括日誌、警示等)進行統一的即時監控、曆史分析,對來自外部的入侵和內部的違規、誤操作行為進行監控、審計分析、調查取證、出具各種報表報告,實現IT資源合規性管理的目標,同時提升企業和組織的安全運營、威脅管理和應急響應能力。
顯示了一個典型的SIEM系統的結構圖:
由圖可知,一般的SIEM系統都具有安全事件(日誌)的採集、範化、儲存、分析、展示等幾個過程,而這與大資料分析的收集、儲存、分析和可視化過程是完全相同的。因此,SIEM天然具有應用大資料分析技術的特質。
安全管理平台是在SIEM系統的基礎上,對採集的資料進行了大規模的擴充,並增加了分析模型,實現了基於風險的資產和業務的集中安全管理。
安全管理平台的核心是多樣化的安全要素資訊採集與儲存、多種安全分析與展示。而這與大資料分析的特徵也是完全吻合的。
當前,安全管理平台的一個重要發展趨勢就是採集的安全資料種類越來越多,不僅包括傳統的資產資訊、事件資訊,還納入了漏洞資訊、效能資訊、流量資訊、配置資訊、商務資訊等等。與此同時,安全資料的產生速率和總量也急速增長。大型企業越來越傾向於採用集中化的安全管理平台構建模式,單一管理平台就要管理全網的安全資訊,安全事件產生的速率達到上萬EPS,甚至是上10萬EPS,每天儲存的事件量則達到上百GB,甚至是上TB。另一方面,使用者需要安全管理平台提供更加精準的安全分析研判和問題定位,更加快速的安全應急響應與處置,對安全分析的準確性和分析結論價值度的要求越來越高。這一切都促使安全管理平台的技術開發人員求助於大資料分析技術。
大資料安全分析首選安全管理平台
SANS在2013年9月份發布的《安全分析調查》報告顯示,客戶進行大資料安全分析的時候,首選的是日誌管理、SIEM等安全管理平台類系統。並且,超過60%的受訪客戶表示未來實現安全分析目標的首要投資對象是SIEM。
由此可見,目前來說,在所有大資料安全分析的應用領域中,SIEM及其安全管理平台是最重要的。
應該說,大資料分析技術並不能保證安全管理平台能夠應對上述挑戰,但卻給安全管理平台應對這些挑戰提供了全新的技術思路和發展模式。當安全管理平台遇上大資料分析,讓使用者和開發人員看到了安全管理平台未來技術發展的一個全新方向。
基於大資料安全分析技術的安全管理平台基本特徵
基於大資料安全分析技術的安全管理平台具有以下顯著特徵:
1) Velocity:高速日誌採集能力、高速事件分析能力;
2) Variety:支援多種日誌源和日誌類型,並支援對半結構化(例如未經處理資料報文、郵件、WEB請求與響應)和非結構化資訊(例如可疑代碼)的採集,具備異構資料間的關聯分析(即情境關聯)能力;
3) Volume:海量的事件儲存能力、海量資料分析能力;
4) valuablity:分析研判的結果是真正有價值的資訊、值得去關注的資訊,是可以用於輔助決策的資訊。這就意味著需要有效資料分析方法和工具;
5) Visualization:安全分析結果的可視化呈現能力。
必須至少同時滿足上述5V,才能將一個安全管理平台稱為基於大資料安全分析技術的安全管理平台。
基於大資料分析的新一代安全管理平台介紹
【略】
小結
大資料時代已經到來,我們創造的大資料正在改變人類生產生活的各個方面。資訊與網路安全作為保障IT數字資產的關鍵能力也正在被大資料所重新塑造。安全管理平台,作為安全保障體系中位於頂層的技術支撐平台,天然具有與大資料結合的特質。基於大資料安全分析技術的安全管理平台正在成為未來安全管理平台發展的重要技術方向。
同時,我們必須看到,不論安全管理平台的技術如何發展,如何與大資料結合,安全管理平台所要解決的客戶根本性問題,以及與客戶業務融合的趨勢依然未變。對大資料的應用依然要服務於解決客戶的實際安全管理問題這個根本目標。
目前來看,大資料分析技術有助於我們更好地去解決安全管理過程中的部分問題,但並不能解決所有的問題,同時還可能引入了新的問題。這是安全管理平台的開發人員、服務提供者和客戶都需要不斷摸索的。
此外,不論安全管理平台技術如何發展,大資料分析給我們帶來了多大程度的資訊價值度提升,安全分析師始終是不可或缺的。正如大資料需要資料分析師,大資料安全更需要安全分析師。安全,本質上是人與人之間的對抗,不論安全分析的自動化技術如何演化,相互之間進行對抗的,始終是坐在螢幕前的人。
轉載:http://yepeng.blog.51cto.com/3101105/1351676
基於大資料分析的安全管理平台技術研究及應用