2014中關村大資料日于2014年12月11日在中關村舉辦,大會以大會以「聚合資料資產,推動產業創新」為主題,探討資料資產管理和變現、大資料深度技術以及行業大資料應用創新和生態系統建設等等關鍵問題。 大會還承載從政亞信府主管部門到各行各業的需求和實踐中的疑問,探討包括政府、金融、運營商等部門是如何通過資料資產管理和運營,實現轉型發展和產業創新的路徑。
在下午的金融@Big Data論壇上,亞信大資料平臺部產品經理楊晉作主題演講,講述了亞信在技術上的應用和分享。
楊晉:下午好,我是最後一個做演講的。 前面的專家和領導分享了大資料在金融行業的應用,包括在互聯網金融、征信等等。 下面我談一下我們亞信在技術上的應用和分享。
我們本身亞信主要是專注于運營商行業,在移動、電信、聯通三大運營商系統建設裡我們亞信連續多年佔據第一位,同時我們開拓很多海外市場。 我們亞信是作為互聯網建築師,現在我們想成為產業互聯網的領航者,因此我們走出了傳統的運營商,我們也在其他的行業不斷的介入,包括今天說的金融行業。
這個是前段時間和某個銀行做大資料的研究方案和課題交流的時候瞭解到的,這個銀行是通過小型機來做資料處理,每天處理任務超過8000個。 涉及的核心的表和模型有3000多個,每天涉及1T的業務。 資料業務很複雜,而且量也很大,有一些指標是T+2才可以展現出來,今天的交易行為,可能到後天領導和業務人員才可以看到分析指標。 現在的互聯網時代,大資料時代下這種效率是無法容忍的,所以需要實現到T+1,第一個還是傳統的架構,小型機去實現擴容。 另外一方面通過大資料來實現,家裡一個X86的集群,來實現大資料的存儲。 根據資料量的增長,包括業務複雜性的增長不斷的添加伺服器做集群的擴容。 同時可以大幅度的節省成本。
我們亞信認為企業級的平臺分為四個階段,第一個是導入期,利用亞信的技術實現特定場景的需求。 比如運營商做的流量經營、小貸查詢等等業務。 第二個階段就是平臺開放期,當大資料平臺建立完善以後在平臺上存儲越來越多的資料,現在我們反復強調資料是一個重要資產,這個資產並不是說把資料獲取過來存儲在硬碟上,資料就有價值了。 只有對資料進行不斷的分析和挖掘才能真正的實現資料的變現,這對單一的廠商可能就無法很好的達到這個目的,可能要引入更多的不同的廠商,在各個部門在同一個大資料平臺針對性的進行開發實現資料的變現。 這個階段就涉及到平臺的資源的有效的管理和分配,包括許可權的細分。
第三個階段是擴展期,像大型的互聯網公司是處於這個階段,他們通過在大資料平臺上進行複雜的演算法進行資料採礦和分析,同時他們更進一步關注平臺的穩定性,以及更好的降低投資成本。 第四個階段就是成熟期,我們認為Hadoop會成為一個底層的核心的基礎架構。
同時要具備幾個能力,第一個是高效能力,我們現在希望在大資料平臺上可以通過標準的(英文)方式實現資料的高效處理。 第二個資源管理,前面說到了平臺開放情況下需要引入不同的部門,需要引入各方的廠商在同一個平臺做資料開發,這個時候需要對廠商或者部門,對它劃分一定的資源,進行資源有效性的管理,同時做許可權劃分。 第三點就是涉及平臺安全性了。 本身平臺的高效處理還是通過spak技術來實現的,它是完整的體系,像(英文),實現P處理、流處理等等各種應用場景的需求。 現在離線處理,我們可以用在模型匯總方面。 在運營商裡涉及的資料量比較大,而且業務邏輯複雜,所以涉及資料的分層處理。 主要分為幾個層,一個是原始資料,一個是資料準備層,然後就是資料的匯總層,還有資料的表現層。 像銀行裡面也有資料分層,當然具體的階層式名稱和具體的含義跟運營商有不同,但是大概架構是類似的。 現在對這種海量的資料的標準化,資料的快速處理,包括對資料的初步匯總,因為資料匯總後量比較好了,這時候可以用spak技術放在記憶體裡,大幅度提高效率。 像客戶查詢不管在運營商還是在互聯網,還是在銀行裡都有客戶標籤和客戶分類的概念,這個場景裡主要是針對三千萬的使用者,每個使用者是超過兩千個使用者標籤,這裡麵包括使用者的自然屬性,比如說年輕、性別、家庭位址等等, 還有就是屬於社會屬性的標籤,比如說IT從業人員還是工人,是偏愛運動還是偏愛窩在家裡看電影還是說喜歡購物。 針對三千萬使用者,每個使用者兩個標籤,建立一個大資料平臺,通過spak技術實現,比原來的小型機提高3倍效率,節省投資達到百萬以上。 即時處理場景裡可以通過(英文)這個技術也可以獲得很好的效果。
在過去我們做即時處理更多是依賴于(英文)技術,(英文)技術只是提供一個基礎的流處理的框架,但是開發中有很多應用是要我們自己開發,在即時處理過程中的記憶體管理也是我們做。 就帶來了複雜性,包括工作量的大幅的提高,像大型的互聯網公司,比如騰訊用spak用的效果比較好,是因為背後大量的人員和資源投入。 現在我們有了spark可以按照時間視窗進行切分,把時間視窗加到記憶體裡,通過spark在記憶體裡進行處理,可以達到必須好的效率,犧牲了一定的時效性,不會是來一條資料就對一條資料進行一個處理,但是帶來了輸送量的大幅度提升。
這個是之前我們在一個省做的一個專案的案例,就是在傳統倉庫裡進行分析的資料還有業務邏輯,從倉庫遷到大資料平臺上面。 這時候我們發現有一些腳本裡的資料量的資料模型明確不是很大,但是在我們大資料平臺運行以後反而處理效果低很多。 還有的時候腳本裡設計邏輯很複雜,大資料裡會分為不同的工作,但是整個處理完的時間會變得特別長,就是因為在(英文)處理框架裡會有多次的資料落地和系列化。 現在引入spark技術,我們可以看到相比原來的(英文)機制,效率是快了5倍以上,同時一個巨大的優勢就是把標準的(英文)直接從倉庫拿出來,直接在spark上運行,不需要進行過多的改寫和加工。 這也是spark的一個重要的元件,它既可以支援(英文),同時也可以支援標準化的(英文),可以是平臺上的通用的一個解決方案。
這個是之前在某一個省做的即時行銷的平臺,這是處理使用者的姓名資料。 每次手機開關機,或者移動到特定的位置都會產生姓名資料,包括我們的手機號碼、時間、當前所屬的位置資訊等等,這個資訊是非常有用的。 在這裡面使用者的姓名資料每秒鐘是將近5萬條,這個省是8千萬的使用者資料,他的業務需求就是通過對資料分析要形成使用者當前所處的位置,還有使用者的位置軌跡的變遷資訊,同時根據變遷有行銷規則, 通過行銷平臺來對使用者篩選出我要推薦的使用者群發送給行銷系統。 就像經常我們碰到的進到廠商裡面,在很短的時間內就會收到短信提醒,這個廠商會搞促銷活動,這就是這個平臺的典型應用。 我們是通過spark加(英文)來實現的,我們是每30秒為一個時間視窗,把資料載入到記憶體裡,和資訊進行匹配。 我們輸出的資訊會作為一個姓名資料的增強,會在原有的姓名資料打上使用者上一次所處的標籤,把這些使用者資料資訊進行關聯匹配,通過企業的標準(英文)的方式實現業務的開發。
我們的系統的好處首先實現了大資料量的快速處理,每個時間視窗要處理三百萬的資料量,只要不到30秒就可以完成處理。 另外可以寫標準的(英文)可以進行業務邏輯的快速開發,比如說像十一黃金周,7天時間內我們會做一些旅遊產品的行銷推薦,像雙十一可能只是在雙十一前後一兩天做商品的推薦,明天馬上到雙十二了,不知道大家有沒有收到相關促銷資訊, 收到了說明他們很好的利用了即時行銷的平臺,做了很好的資料處理。
spark技術從去年到今年變得特別火熱,在我們亞信大資料平臺的部門,從2013年年初我們就開始對spark技術進行跟蹤和研究。 同時我們培養了7位(英文),下一步我們的目標是進一步培養出我們的(英文)技術大牛,我們也可以對spark的發展起到巨大的推動的作用。 也可以使spark在我們的產品和平臺裡起到更好的應用。
前面講資料的高效處理,下面講一下分配。 我提到的Hadoop。 現在在Hadoop2.0時代有了亞這個元件,它可以實現元件的管理,實現了Hadoop的框架,也可以實現像spark的不同的框架的混搭架構的管理。 同時實現資源的有效利用。 在Hadoop2.0時代只能是通過抽象的概念對資料分配,在Hadoop可以實現細資源的分配和管理。 在大資料平臺開放我們要引入不同的廠商和部門,我們認為不同的廠商和部門都是屬於一個租戶,大資料平臺上會針對不同的租戶分配資源,就是CPU和記憶體,分配資源會做限定,包括最小值和最大值, 保證不同的廠商提交任務到大資料平臺上的時候,保證你的資源提供給你,最小資源無法滿足你的需求,可以給你提供更多的資源,強佔空閒資源,實現削峰填谷。
在這裡我們通過網路安全協定實現大資料平臺本身伺服器內部的服務交互的安全控制,大資料平臺會和很多的外部系統有業務交互和資料交互,這裡是通過介面來開放計算資源和存儲資源。 這裡我們還擴展了安全性群組件,(英文)元件實現了(英文)的控制,現在實現針對(英文)讀寫的全面的控制,可以滿足各類應用場景的需求。 他們使用我們的大資料平臺可能涉及不同的人員,比如業務人員只是對核心的資料模型有操作許可權,測試人員只是分配讀許可權,做資料品質的集合。 通過我們這種詳盡的安全管理方式可以很好的滿足需求。
最後也借這個機會相當於給我們產品做一個廣告,本身亞信大資料平臺方案,在spark和Hadoop的基礎上,為客戶做資料分析平臺。 我們主要包括兩個產品,一個是我們自己基於開源社區做的集成分化的Hadoop產品,可以滿足P處理還有流處理等等各種場景的應用需求。 還有就是OCDC的資料分析產品,可以實現流程編排、使用者管理等等,這個是我們的兩個產品。 同時我們也堅持技術的開放和共用原則,技術來源於社區,貢獻與社區。 同時我們會對所有的產品,包括我們的自己的產品,提供專業化的服務,包括部署、優化、升級等等。 這就是我今天全部的介紹,謝謝大家。
(責任編輯:mengyishan)