2014年12月12-14日,由中國電腦學會(CCF)主辦,CCF大資料專家委員會承辦,中科院計算所與CSDN共同協辦的 2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014) 將在北京新雲南皇冠假日酒店拉開帷幕。 大會為期三天,以推進行業應用中的大資料技術發展為主旨,擬設立「大資料基礎設施」、「大資料生態系統」、「大資料技術」、「大資料應用」、「大資料互聯網金融技術」、「智慧資訊處理」等多場主題論壇與行業峰會。 由中國電腦學會主辦,CCF大資料專家委員會承辦,南京大學與復旦大學協辦的「2014年第二屆CCF大資料學術會議」也將同時召開,並與技術大會共用主題報告。
本次大會將邀請近100位國外大資料技術領域頂尖專家與一線實踐者,深入討論Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等開源軟體的最新進展,NoSQL/NewSQL、記憶體計算、 流計算和圖計算技術的發展趨勢,OpenStack生態系統對於大資料計算需求的思考,以及大資料下的視覺化、機器學習/深度學習、商業智慧、資料分析等的最新業界應用,分享實際生產系統中的技術特色和實踐經驗。
其中,本次大會的「大資料應用」分論壇邀請到了CCF大資料專家委員會委員、螞蟻金融服務集團大安全安全智慧部總監/資深資料專家陳繼東,分享「大資料分析在網路安全與欺詐風險管理中的應用」。
在本次大會召開之前,CSDN和陳繼東針對大資料技術趨勢及他的演講內容進行了一次簡單的溝通。 陳繼東一直專注于大規模資料管理及分析方面的研究和高級開發應用,使用過Greenplum、MapReduce、HBase、Hive、Kafka、Storm和Spark等多項技術,目前重點關注分散式即時圖架構、 即時CEP複雜事件管理等應用。 他認為,當前金融級的安全和風控系統,挑戰還在於對海量資料的即時處理能力。
在12月14日的大資料應用分論壇上,陳繼東將重點分享螞蟻金服的大資料風控體系,如何基於海量的使用者行為和關係網絡資料進行預測性分析和建模,實現交易和帳戶風險的預先識別;以及螞蟻金服最新推出的安全雲服務產品 - 安全寶, 如何利用大資料説明銀行等金融機構管理各種欺詐風險。 點擊報名,與陳繼東面對面溝通!
陳繼東
螞蟻金服大安全安全智慧部總監/資深資料專家,CCF大資料專家委員會委員
陳繼東博士,現任螞蟻金融服務集團大安全安全智慧部總監/資深資料專家,負責基於大資料的支付寶帳戶安全防控和交易風險管理體系,曾任人人遊戲大資料研究中心首席資料科學家,EMC中國研究院大資料實驗室主任, 一直專注于大規模資料管理及分析方面的研究和高級開發應用,特別是面向移動互聯網和金融風險管理的大資料分析。 陳繼東于2007年獲得中國人民大學電腦應用博士學位,2012年從復旦大學電腦學院電腦科學與技術博士後流動站順利出站,2012年底加入中國電腦學會(CCF)大資料專家委員會, 在大資料分析相關領域先後申請了5項美國專利和2項中國專利。
陳繼東採訪問答整理如下:
關於大資料實踐
CSDN:請首先介紹一下您公司的業務,大資料對公司業務的價值,以及您部門的職責?
陳繼東:螞蟻金服以小微企業和普通消費者為主要使用者,建立以資料、技術、服務這三個開放平臺為核心的金融生態,支援和説明合作夥伴,共同為使用者創造價值,旗下業務包括支付寶、支付寶錢包、餘額寶、招財寶、螞蟻小貸及籌備中的網商銀行等。 大資料是螞蟻金服的核心,從資料化運營到運營資料,建立以資料為核心的信用體系。
安全智慧部主要通過對海量的使用者行為和關係網絡資料進行預測性分析和建模,通過大資料風控體系實現交易和帳戶風險的即時監控和預先識別。 同時通過安全資料產品,實現在DT(Data Technology)時代下金融雲平臺中安全雲服務,説明商戶、銀行及其他協力廠商金融機構解決網路風險和欺詐問題。
CSDN:您本人曾經在不同的企業擔任資料科學家,能否介紹您在專案實施中曾使用過哪些大資料技術? 您對這些技術滿意的地方和不滿意的地方分別有什麼?
陳繼東:我使用過多種主流的大資料技術,包括:MPP Database如Greenplum;Hadoop生態中的MapReduce,HBase,Hive;Kafka,Storm,Spark等。
使用這些技術的綜合體會:
滿意:大規模離線資料分析,准即時資料查詢和分析,流資料處理的優勢很明顯。 不滿意:1)缺乏分散式系統架構和海量資料採礦的融合系統;2)缺乏海量圖資料採礦所需要的即時分散式圖框架和系統。
CSDN:大資料在您所在的行業落地目前主要遇到哪些困難?
陳繼東:這也是我對上述技術存在不滿意的原因,金融級的安全和風控系統對海量資料的即時處理能力要求極高:
需要高性能、高可靠性和高可用的大規模即時計算基礎架構,例如毫秒級即時資料採集,傳輸,計算及分析等資料處理閉環; 需要靈活可配置,彈性可擴展的模型和規則平臺,支援即時事件處理和變數計算,分散式規則引擎, 線上和離線模型開發與部署; 需要海量分散式圖框架來支援海量圖資料上的即時查詢和即時分析挖掘。
CSDN:根據您的經驗,企業容易犯哪些錯誤導致大資料項目目失敗?
陳繼東:以下幾個常見的認識誤區,將會讓大資料項目目付出代價:
盲目追求資料的「大」,而忽略資料的品質,資料的時效性,不同資料的融合; 過分追求單一技術如Hadoop,期望能解決所有大資料處理的問題; 過分追求通過大資料重建原有系統,大而全的大資料體系和戰略, 不考慮如何從原有資料庫架構到新的大資料架構遷移。
關於大資料技術趨勢
CSDN:大資料領域的新技術發展很快,從整個大資料產業來說,您認為哪些技術趨勢值得關注?
陳繼東:當前的大資料處理技術有很多,包括海量資料的批次處理,即時流計算,互動式查詢分析,分散式記憶體,圖計算框架等。 相對於某一個系統和工具,我更看好完整的大資料生態系統,比如Hadoop和Spark開源生態圈,一方面包含了從資料獲取,存儲,處理,存取到上層分析和視覺化等資料生命週期的各個環節,以及中繼資料管理和工作流等任務。
另外,大資料深入分析(如預測分析)的需求將催生新一代即時大資料分析平臺,能夠真正將資料存儲管理(分散式存儲和SQL)和挖掘分析(並行機器學習)等有機集成,形成一個統一的端到端的方案。
CSDN:針對您所在的行業,哪些技術是您目前主要觀察和研究的,您為什麼看好這些技術?
陳繼東:從螞蟻金服的角度,目前的關注點主要包括:分散式即時圖架構,即時CEP複雜事件管理,大資料安全和隱私,大資料價值評估,大資料創新應用。
我認為,大資料的未來在於更廣泛的從不同資料來源中整合各種資料後加以分析和利用,從傳統的零售,媒體到金融,到更多新的領域,基於資料採礦出更多的知識和洞察。 資料的品質,資料安全以及資料的開放性思維將是未來大資料分析中主要的挑戰!
關於大資料人才
CSDN:人才對大資料項目目的成功實施也很重要,您在大資料團隊的建設方面有什麼經驗可以分享?
陳繼東:大資料人才應當需要分析能力與工程能力相結合、分析能力與業務能力相結合:通過應用驅動的大資料分析實踐,來培養大資料人才,資料分析和挖掘需要具備很強的業務理解和商業能力,同時培養一定的工程實現能力。
CSDN:您認為優秀的資料科學家需要哪些素質? 如果有大學畢業生立志成長為數據科學家,您對他有什麼建議?
陳繼東:我理解的資料科學家是一類集業務和商業理解,資料分析與挖掘,分散式系統于一體的綜合性人才。 對於畢業生而言,從應用實踐出發,從最簡單最枯燥的資料清理和業務學習開始,逐步培養分析和挖掘能力,鍛煉更敏銳的資料和業務感覺,才能使用資料的思想解決實際問題,創造出價值。
關於BDTC
CSDN:請談談您在這次大會上即將分享的話題。
陳繼東:我的議題是大資料安全與風控:面對數以億計的帳戶和交易,如何在這些資料中甄別出極小量的高風險資料,並且結合業務理解和資料分析,對帳戶、交易中的風險實現預先識別,在盜用交易前及時判斷風險,防止盜用的發生, 這是大資料和安全最重要的結合點。 我將分享如何建立資料驅動的風控體系,以實現從傳統的帳戶密碼驗證方法向基於海量使用者行為分析和預測的帳戶風險識別方法變革!
CSDN:哪些聽眾最應該瞭解這些話題? 您所分享的主題可以説明聽眾解決哪些問題?
陳繼東:適合互聯網金融從業人員特別是風控分析人員、資料分析和挖掘工程師,以及互聯網安全分析師和工程師,能夠説明他們瞭解如何使用大資料進行欺詐風險識別與管理,如何對交易和帳戶風險進行建模分析,基於大資料風控系統的需求。
CSDN:請談談您對BDTC2014的一些期待?
陳繼東:這是一場國內外大資料技術領域頂尖專家與一線實踐者雲集的盛會,將深入討論大資料技術的最新進展和實踐經驗,我個人非常期待先進的即時大資料分析基礎架構,創新的大資料分析應用的分享。
全國大資料創新專案評選活動目前正在如火如荼進行中,詳情點擊這裡。
2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014)將于2014年12月12日-14日在北京新雲南皇冠假日酒店召開。 傳承自2008年,歷經七屆沉澱,「中國大資料技術大會」是目前國內最具影響、規模最大的大資料領域技術盛會。 本屆會議,你不僅可以瞭解到Apache Hadoop提交者Uma Maheswara Rao G(兼專案管理委員會成員)、Yi Liu,以及Apache Hadoop和Tez專案管理委員會成員Bikas Saha等分享的通用大資料開源專案的最新成果和發展趨勢,還將斬獲來自騰訊、阿裡、Cloudera、LinkedIn、網易等機構的數十場乾貨分享。 當下門票團購還有些許優惠, 預購從速。
免費訂閱「CSDN大資料」微信公眾號,即時瞭解最新的大資料進展!
CSDN大資料,專注大資料資訊、技術和經驗的分享和討論,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、機器學習、智慧演算法等相關大資料觀點,大資料技術,大資料平臺, 大資料實踐,大資料產業資訊等服務。