任何新技術的發展都會經歷一個從被公眾瞭解到最終普遍應用的過程。 大資料技術作為一個新興的資料處理技術,經過了近十年的發展,剛剛開始在各個行業得到應用。 但從媒體和公眾視野中,大資料技術總是帶有神秘的色彩,似乎有著挖掘財富和預測未來的神奇力量。 廣泛流傳的大資料應用案例包括Target超市根據女孩的購物歷史判斷是否懷孕,信用卡公司根據使用者在不同時空的購物行為預測客戶的下一個購買行為,等等。 大資料技術也為我們描繪了一個個如「智慧城市」,「智慧交通」和「智慧醫療」等等的美好夢想。 這些描述讓大家對大資料技術充滿了憧憬和美好預期。
我從2014年的大資料應用中總結了兩個重要的現象或者說應用趨勢。 第一個現象是大資料技術優先應用在採用SQL進行結構化資料處理上,來解決資料量增大帶來的處理能力的挑戰;這與很多人宣傳的大資料技術最適合處理非結構化資料(而不適合結構化資料處理)相反。 我們發現企業面臨兩方面的挑戰,一方面是累積的資料量越來越大,從GB增長到了TB(擁有PB級的企業客戶也有,但是少數),另一方面,隨著應用的增多和複雜化,計算能力越來越不能滿足要求。 大多數企業多年來根據業務需求在傳統的關係資料庫如DB2或者Oracle上開發自己的應用,資料量和應用的數量都在快速增加,傳統資料庫運行這些應用花的時間越來越長,即使只有1TB的資料,由於業務邏輯的複雜性, 在傳統關係資料庫上運行統計業務,也從以前的日報(每日統計)降低到只能做現在的週報了。 這樣的時效性已經大大限制了企業的生產力。 在IT系統日益成為企業業務本身的大趨勢下,IT系統效率的低下嚴重影響了企業的競爭力。 這些待處理的資料都是企業的結構化業務資料,現有的應用也都是基於SQL的。 這是分散式的SQL on Hadoop技術發展的客觀原因,也是星環科技致力於提升SQL運行性能和SQL支援完整程度的一個現實需求。
第二個現象或者需求是對即時時序資料的處理需求日益強烈,特別是隨著感應器和監控設備等電子儀器的普及,企業有越來越多的即時資料。 傳統處理方法是將電子儀器產生的資料存入資料庫後再統一分析。 隨著設備的增多和資料的增長,傳統方案的延時越來越高。 利用流處理技術在資料產生的時候就進行即時處理可以極大地提高企業的反應速度和工作效率。 2014年星環科技部署了較多的流處理集群,來處理從使用者產生的即時資料到感應器產生的資料。
這兩個應用趨勢我認為在2015年會變得更加強烈。 下文簡單總結了過去一年中在運營商、金融、物流、工商、交通、能源、廣電和電商等多個領域中的大資料應用。
電信運營商
移動互聯網時代的運營商面臨著許多新挑戰。 微信等手機通訊APP的出現侵蝕了運營商的語音和短信收入,流量業務顯得更加重要。 另一方面,無線網路服務是運營商的核心競爭力。 近年來,運營商正在投入大量資金建設網路來大力發展4G。 4G網路的覆蓋率不高或者品質不高導致的4G回落到3G或者2G會大大降低客戶滿意度。
經過最近一兩年的探索,運營商在大資料平臺建設方面總結了兩個方向,一是利用大資料技術來提升運營效率,同時探索新的商業模式和資料運營方式。 在過去的一年中,大資料在運營效率提升方面得到驗證,而新的商業模式仍然在探索中。 我們在廣東移動的經營資料分析中應用星環的記憶體計算技術成功地將800多個指標的計算從原先Oracle的30小時減少到了4小時,在上海移動成功地將流量經營系統從DB2完整地遷移到了星環的TDH上, 運行效率比原先的集群有5倍左右的提升。 我們對SQL的完整支援使得應用系統移轉成為可能,而之前合作夥伴曾經嘗試過將應用系統移轉到某知名Hadoop發行版本上但沒有成功。 我們正在參與某省電信和某直轄市移動的4G網路優化專案,在這些專案中,我們的合作夥伴在用更高性能的星環TDH代替傳統MPP資料庫進行網路優化模型的建立和高速的模型運算,一方面發現網路中存在的問題,例如信號回落的問題, 説明運營商快速找出有問題的區域。 另一方面通過TDH提供的完整SQL結合統計和機器學習演算法,找到最佳的優化模型和參數,對網路進行細細微性的精確調整,以提高網路的覆蓋度以及信號的品質。
金融
在2013年到2014年間,國有銀行以及部分股份制銀行或多或少地進行了大資料技術應用方面的探索,但是早期的應用局限在簡單的歷史交易查詢以及非結構化資料的存儲和檢索上,並沒有對銀行的關鍵業務產生影響。 而大資料技術在銀行的應用前景被廣泛傳播,通過綜合處理銀行自有結構化交易資料以及外部互聯網/政府資料,可以提升精細化客戶管理水準以及進行大資料征信降低風險等。 這些遠景在2014年沒有成為現實,2015年預計將是應用探索的一年。 但我們在2014年在銀行中實踐了一些務實的應用。 在這些應用中,TDH作為資料倉儲的補充,用於提升資料分析的效率。 同樣受益于我們對SQL的完整支援,某股份制銀行開始把一些複雜的貸款風險控制邏輯遷移到TDH Hadoop平臺上進行運算。 這些風控模型客戶此前在多個MPP資料庫和Hadoop發行版本上進行過嘗試,性能或者功能都沒能滿足他們的要求。 從技術角度來看,這些分析涉及的資料量只有幾個TB,但是分析業務極其複雜,涉及到近百張事實表和維度表,有些表的寬度甚至超過了幾萬位元組。 這個案例說明傳統關聯式資料庫或者MPP資料庫對於大資料場景下的複雜計算變得越來越捉襟見肘,銀行需要一個更高效的資料處理工具。
快遞
快遞行業IT系統產生的資料量和承載的壓力過去一直沒有得到大家的關注。 近年來,快遞行業的規模隨著電子商務的高速發展出現了快速的擴張。 巨大的市場需求給快遞公司帶來了前所未有的挑戰,每年的「雙十一」會給快遞公司的處理能力施加遠高於平時的壓力。 因此,怎樣緩解「雙十一」的爆倉、避免快件變「慢件」是每個快遞公司的難題。
如何通過大資料的分析對快遞流程進行改善和優化成為一個值得研究的問題,也是快遞業提高競爭力的一個重要手段。 快遞的每一個生產環節都會產生的大量資料,監控這些資料進而對全國各處理中心的收寄和運載能力、出班投遞計畫做即時優化調整,公司就能降低成本。 分析這些資料來對業務發展的趨勢做出預測,公司就能做好準備應對暴漲的需求。 然而,快遞生產環節中的資料具有資料量大、併發性高、類型複雜的特點,上層應用對即時性要求很高,傳統資料庫在這樣的情況下捉襟見肘。
我們和華勝天成合作一起為中國郵政EMS速遞部門部署了大資料平臺,對它在全國的攬投部、處理中心和集散中心的資料(包括已接收、留存件、已下段、未下段、已投遞、未投遞、攬收員、位址、已封發、已發運、未發運等等)進行處理。 大資料平臺將ESB(企業生產匯流排)流來的資料即時動態載入進流處理集群以及即時資料庫,進行即時統計和指標監測,並且實現即時資料查詢。 這次部署給了客戶簡單易用的工具來對業務的每個環節即時監控,使得他們在海量的快遞業務中都可以快速精准地發現問題,如快件的積壓、遺失、破損等,從而提高服務品質。 這個大資料平臺平穩支撐了2014年「雙十一」的資料處理壓力。 未來該平臺也可根據最新的生產資料説明快遞公司調整和優化投遞計畫,為公司降低成本。
工商
工商部門在建設國家的「經濟戶籍庫」積累了大量的市場主體資訊、年檢情況、執法資料和12315投訴等資料。 對這些資料的統計分析可以説明工商部門理解市場與經濟形勢。
大資料技術的其中一個簡單應用是用在資料品質管理和統計分析上。 由於是人工錄入資料,不可避免存在一定出錯的概率,雖然概率不大。 同時企業和個人的基本資訊被分散在幾十張關係表中,資訊存在一定程度的交叉關聯。 通過對資料進行大規模交叉比對和統計,可以發現資料中隱藏的錯誤並及時得到更正。 這個應用使用了星環的記憶體計算技術,全量資料的校驗和統計可在十分鐘內完成,極大提高了工作效率。
另外,大資料技術也用於市場主體資訊的查詢系統中,可以應對上億使用者併發查詢並在幾百毫秒內就返回查詢或搜尋結果。 對企業歷史快照的查詢可以讓使用者跟蹤企業變更資訊,掌握企業生命週期的變化規律。 在解決了存儲和查詢問題的基礎上,我們還説明客戶利用圖計算引擎快速發現企業之間和企業相關人員之間的關聯。 通過對全庫資料進行掃描,確認這些企業基於股權、任職等方面的關聯關係,建立企業關聯關係資訊庫。
電力
隨著電力公司資訊化快速建設和智慧電力系統的全面建成,電力資料的增長速度將遠遠超出電力企業的預期。 從發電側為例,電力生產自動化控制程度的提高,對諸如壓力、流量和溫度等指標的監測精度,頻度和準確度更高,對海量資料獲取處理提出了更高的要求。 就用電側而言,一次採集頻度的提升就會帶來資料體量的「指數級」變化。 電力資料量的增長已經遠遠超過某電力部門原先使用的關係資料庫的處理能力。
我們在2014年主要説明電力部門處理用電側的資料。 我們意外地發現電力資料的統計分析涉及非常複雜的SQL運算,從技術角度來看,大量使用了Oracle的PL/SQL擴展語法,包括預存程序/控制流/異常處理/增刪查改/交易處理等。 從應用角度來看,這些SQL邏輯主要用於用電量的歷史統計和用電趨勢的分析,以及對線路損耗的計算。 我們協助客戶通過機器學習的方法進行分析,發現用電量跟宏觀經濟走勢以及氣候有一定的相關性,同時也跟每個行業以及每個企業的經營狀況密切相關。 通過對企業用電量的統計以及它所處行業的用電水準的對比,可以發現企業的節能情況,通過對用電歷史資料的分析,可以發現企業生產活動的變化或者節能措施的效果。 某南方供電局採用TDH的平臺統計找出節能環保的企業和用電大戶,並對節能環保的企業給予補貼,目的是對全社會節能減排觀念進行引導,推動工業由高耗能的粗放發展方式向低耗能、高效率的綠色和諧發展方式轉變。
我們還為某電力部門部署了一個試驗性的故障處理系統,我們和合作夥伴建立了統一的配電網供電拓撲模型,利用圖資料庫存儲從使用者到變電站的整個供電拓撲網路資料,利用流處理系統進行即時告警,並即時查詢電網拓撲圖, 快速研判停電事故發生的地點以及影響的範圍。 在此基礎上,可以將停電事件通知搶修班組,及時恢復供電。 同時可以主動告知使用者,加強與使用者互動,全面且直觀的掌握全網的停電分佈情況。
交通
隨著經濟迅猛發展,機動車輛不斷增加,全國性的交通擁堵現象也越來越嚴重,如何通過資訊化手段提高交通管理水準和保障道路安全已經成為一個重要的課題。
目前常用的方式是在道路卡口部署數位監控設備,這些設備7×24小時不間斷捕獲圖像和視頻資料,並進行識別,一個省或直轄市每日產生的過車資料有幾千萬條記錄。 這些資料主要用來為交通管理部門提供即時的路況資訊,這些資訊未來可以發佈給公眾作為出行的參考資訊。 同時協助管理部門進行交通管理,包括對重點營運車輛的監控,違法車輛的識別和布控,區間測速、套牌分析等即時性的分析應用。 我們和合作夥伴為某省公安廳交通管理部門部署了全省範圍的交通監控系統,採用分散式佇列即時採集全省各個交通卡口的車輛資訊,使用流式計算集群對過車記錄進行即時統計和監測,並實現上述多種即時分析應用, 系統處理資訊的端到端延時在2秒以內,較好地提高了交通管理的效率。
當然,交通行業的大資料應用還處於起步階段,剛剛開始或者即將完成大資料的集中收集。 利用大資料技術的強大分析和挖掘能力,未來可以顯著提高交通資訊的即時透明度,提升交通和擁堵管理的水準,降低事故的發生率,並為城市規劃提供參考。
廣電
在中國,廣電系統正經歷著數位化浪潮的衝擊,基於網路化的影視播放給傳統廣電運營商很大挑戰。 在此背景下,華數傳媒敏銳意識到,要想獲得未來網路化傳媒的生存與競爭優勢,現在就必需向使用者傾斜,打造「精准型」廣電內容及傳播運營商。 華數傳媒需要的資料基礎架構需要能夠滿足海量、多來源、多樣性資料的存儲、管理要求,支援平臺硬體的線性擴展,並提供快速即時的資料分析結果,迅速作用於業務。 華數傳媒選擇了我們為其部署了大資料平臺,在其之上開發了數位電視分析系統。 該系統可以提供基於全量資料的即時榜單。 以時間(小時/天/周)、使用者等維度,對點播節目、直播節目、節目類別、搜索關鍵字等進行排名分析、同比環比分析、趨勢分析等。 系統還可以從時間、頻道、影片類型、劇集等維度,根據在看數量、新增數量、結束觀看數量、完整看完等分析使用者走向。 另外,通過對使用者行為資料的採集分析,華數傳媒可以對客戶進行精准畫像,使用智慧推薦引擎,系統可以先于觀眾知道他們需求,預知將受到追捧的電視,為每一個使用者量身定做推薦節目,以提高了產品的到達率,增強使用者忠誠度。 另外,系統還可通過觀眾對演員、情節、基調、類型等中繼資料的標籤化,來瞭解受眾偏好,從而進行分析觀測,為後續的影視製作等內容開發做好準備。 得益于基於大資料平臺的數位電視分析系統,華數傳媒正在進行從內容傳輸到內容製造的「華麗轉身」。
電子商務
在電子商務領域,大資料可以說已經成為業務支撐的關鍵技術,在行銷推廣、客戶關懷等眾多環節發揮重要作用。 我們和錦江電商合作,利用大資料平臺為該電商打造了產品推薦系統。 我們基於大資料平臺建設了客戶標籤體系。 依託該電商大量的會員和訪客,深度學習和挖掘客戶的行為資料,依據RFM模型和客戶資訊,形成客戶消費喜好、客戶年齡、家庭狀況、甚至星座、屬相、消費頻次、金額、出行方式等等資訊計入客戶標籤。 再將客戶標籤聚類分析,形成客戶分群。 如此,便能精准獲取客戶群體,實施精准行銷。 同時,我們還協助客戶建設了產品標籤體系。 依據酒店與旅遊等各類型產品特徵,建設和挖掘產品標籤,並經過一定的機器學習挖掘過程,將客戶標籤和產品標籤對接,根據各類標籤分析權重,建設智慧化推薦系統。
該推薦系統可以智慧化推薦產品,正逐步成為針對電商的會員關懷體系和精准服務體系中重要的基礎環節。
總結和展望
總結了一下2014年的Hadoop大資料行業應用,有些應用可能是大家之前沒有預想到的簡單應用,有些則是複雜的資料分析和挖掘類應用。 大資料技術本身是一個全新的資料處理和分析技術,擁有超過現有技術的強大處理能力和深度挖掘資料的能力,然而技術本身帶來的價值需要通過上層應用來展現,因此如何應用這些能力來解決現實的問題是各個行業都在探索的課題。 在2015年預計會有大量的基於大資料技術的創新應用湧現出來。
同時在過去的一年中,大資料技術已經證明可以大幅提升運營效率,我們預計將來的一年內,利用SQL on Hadoop技術解決企業面臨的資料量大難算的難題會成為一個普遍的應用趨勢,隨著SQL支援程度的不斷完善和性能的不斷提升, 企業應用大資料技術進行結構化資料處理,以提升運營效率和解放生產力,將得到立竿見影的效果。
2014年是大資料技術開始落地的一年,我們看到了市場對大資料技術和產品的巨大需求。 我們對2015年和以後的大資料發展都十分看好。 大資料快速發展的趨勢會持續很長一段時間,資料中還有太多價值沒有被挖掘出來,會有越來越多的企業、政府機構和公益組織需要大資料解決方案。 普及優秀的大資料產品説明大眾解決資料處理的難題,讓我們共同努力!
(責任編輯:mengyishan)