標籤:終端 提高 將不 網管 指標 style 沒有 記錄 jic
內容提要:手機使用者畫像是電信電訊廠商實現“資料驅動業務與運營”的重要舉措。首先,介紹了手機使用者畫像過程中對個人隱私保護的方法,然後分析手機使用者畫像的資料來源與大資料實現技術,最後,通過資料樣本執行個體分析手機使用者畫像在個人徵信中的應用。
引言
隨著電腦網路技術的不斷髮展,“資料即資源”的大資料時代已經來臨。使用者畫像是電信電訊廠商為了避免管道化風險,實現“資料驅動業務與運營”的重要舉措。使用者畫像與應用大資料技術對客戶分類密切相關,是單個客戶的眾多屬性標籤的累積;另一方面,在電訊廠商涉足的消費金融領域,對手機使用者所進行的個人信用評價,是對手機使用者畫像中的諸多特徵實施再組合與分類的應用過程。
1. 手機使用者畫像與隱私保護
所謂使用者畫像,是指單個使用者所有資訊標籤的集合,即通過收集與分析使用者的人口屬性、社會交往、行為偏好等主要資訊,將使用者所有的標籤綜合起來,勾勒出該使用者的整體特徵與輪廓。在互連網經濟條件下,滿足消費者個人化需求成為電訊廠商差異化競爭的主要手段,使用者畫像可以較為精準地發現客戶類型,成為電信電訊廠商避免管道化風險,實現“資料驅動業務與運營”的重要助力。
使用者畫像是個形象的比喻。在大資料技術的協助下,我們可以瞭解手機使用者的更多資訊,但由於實施成本和隱私保護的限制,這個畫像其實不是全息的“照相”或“錄影”,是按需設計的,不可能無限細化,即使用者“畫像”不考慮成本與需求而具有超高“像素”是不現實的。一般而言,使用者畫像與客戶分類密切相關。在大資料分析中對客戶群進行分類,如群集、判斷邏輯分析等,可以按特徵將使用者劃分為不同的類別;這些多維角度的客戶分類,形成了一系列不同的屬性標籤。對於單個客戶,正是這些分類範圍的相互交集,即是單個客戶身上的眾多標籤的累積,使得客戶形象逐漸豐滿,依稀呈現。同時,眾多特徵的迭加也可視同從量變到質變的“湧突”現象,在標籤資訊的基礎上,可以再從各項特徵中重新按需組合,形成相對完整的“大屬性”標籤,實施進一步的分類。從這個角度來看,手機使用者的個人信用評價,也是個手機使用者畫像中的諸多特徵再組合分類的應用過程。
就電信電訊廠商而言,應本著風險防範原則,首先加強系統安全的日常管控與監查,具體包括:流程規劃、許可權分級、下載監控、合規巡檢等內容(見表1)。其次,利用大資料技術做好威脅情報與安全資料的解析工作。近年來,隨著網路安全攻防技術的不斷演化,出現了依託社交工程學等方法的APT(Advanced Persistent Threat,進階持續威脅)方式,APT不單針對使用者資訊,而是出於特定目標長期地威脅整個網路系統的安全。APT的出現,促使電信電訊廠商的資料安全理念從以漏洞為中心的即時防禦,發展到以威脅情報為中心的安全解析管理。安全解析管理要利用大資料技術,著重分析挖掘業務系統中:①商務程序類資料:包括企業組織圖、業務環節構成、業務鏈關聯、員工層級與分工權責、出勤在崗記錄等,這些資料往往難以從機器中直接擷取,且有助於對潛在威脅點的搜尋與定位;②網路資料:包括FPC(full packet capture) PSTR(Packet ),會話或flow資料;③裝置、主機及應用的日誌:包括WEB代理日誌、路由器、防火牆日誌、VPN日誌、windows安全及系統日誌等;④警示資料:即偵查工具發現異常而發出的通知等。通過全面的資料解析,可以及時發現入侵跡象,力爭在攻擊者完成使命前成功地阻止其活動並完成溯源。當然,前面提及的日常即時防禦仍是安全管理的基礎,構成了安全防守的縱深,否則後面的安全解析也無從談起。
最後,出於保護個人資料隱私的目的,做好資料脫敏工作。資料脫敏主要對應於資料分析應用與發布的環節,目前主要技術有:浮水印、泛化、加密、失真、歸併等。其中,浮水印是指對局部資訊的掩遮;失真是指採用添加雜訊等方法對未經處理資料進行擾動處置,但還要保持原有的資料統計方面的性質不變;加密是應用密碼技術對資料進行封裝,這種方法保護效果最好但開銷較大;泛化是對資料進行更概括、更抽象的描述,如對於年齡18歲,可以泛化為年齡取值區間為[14,25];歸併則是將量化的數值指標按一定的標準進行分類,形成屬性指標參數,如價值5000元以上手機型號,被劃分為高檔手機類,記為參數1,歸併方法兼顧了失真與泛化的要求,在使用者畫像中常被使用。
當前,許多與民眾生活息息相關的部門如公安戶籍管理、社會保障、房屋公積金管理等,都涉及到為數從多的個人家庭住址、社會關係、職業經曆、個人收入等敏感資訊,成為駭客們首選的攻擊目標;但這些部門並沒有因噎廢食,在不斷完善個人資訊安全與隱私保護技術的前提下,充分利用大資料技術廣泛開展綜合業務為民服務。應該說,其它部門能夠做到的,電信電訊廠商也有能力做到。
2. 主要技術來源與技術架構
2.1 主要資料來源
手機使用者畫像的資料可以分為四大類:人口屬性資料、社交網路資料、行為偏好資料和其他方面資料。
2.1.1 人口屬性資料
人口屬性資料是指手機使用者的姓名、年齡、性別、手機類型、手機使用者唯一標識、訂購套餐類型等基本資料,以及由此延伸的手機使用者的實際話費、手機號碼註冊地、身份證居住地址等。2015年9月1日起手機卡實名登記制實施,原有的“臨時賬戶”、“集團卡”、“代辦卡”,以及手機卡登記資訊不完整、機主姓名與實際持用者資訊不匹配的現象將被制止,這部分的資訊將成為手機使用者畫像的重要基礎資料。
2.1.2 社交網路資料
手機是人們交往的重要通訊工具,從手機使用者的主被叫通訊記錄中可以描繪出該使用者的社會交往網路。社交網路的研究分為兩種形態,第一種是以某個人為核心點,重點探討研究其他各節點和核心點的串連互動關係以及串連強度,稱為“自我中心網路(ego-centric networks)”。第二種形態是以整體網路為核心,在特定範圍內所有成員所構成的關係網路,稱之為“社會中心網路”(socio-centric networks),研究重點在於網路結構以及資訊如何在網路內部擴散。社交網路技術方法有靜態和動態互動法,通用研究工具有Ucinet、Pajek、Nwb、Nodexl和Gephi等軟體。
手機使用者畫像的社交網路主要研究的是第一種形態網路,即以個人為中心的社交網路。可以根據是否一段時期有主被叫、通話時間長短、通話發生的時間等因素來標註社會交往的串連緊密程度以及關係的穩定性。例如,有人認為通話記錄中,主叫較多的手機使用者可能處於相對的支配地位,但僅憑某單項指標則容易發生誤判,主叫多的可能是從事物流業的快遞員;而被叫較多的手機使用者,也有可能是導遊或會議組織的服務人員。所以,有必要綜合考慮其它因素,如一段時期內的雙向通話的時間長度等。另一方面,根據“物以類聚,人以群分”的思路,手機使用者的社交網路中有緊密串連關係的群體的一些相關資訊,如ARPU值、手機型號的整體價格水平等也可以間接反映該使用者所處的社會環境與地位。另外,社交網路也可以緩解資訊不對稱問題,對手機使用者行為產生“聲譽約束”的影響。
2.1.3 行為偏好資料
手機使用者的上網行為可以有兩種方式擷取。一是通過電信電訊廠商自身經營的網站日誌進行挖掘。如中國電信的“號碼百事通”網站上有旅遊、團購、演出、購物、民生資訊查詢,以及水電、有線費支付等模組,手機使用者登入該網站瀏覽及進行購物消費,其行為資料可以在網站日誌中留下記錄。二是通過手機上網的信令分析。與前者網站日誌分析不同,這部分行為資料的收集過程比較複雜,目前主要是進行Gb口信令分析。常用Wireshark和Compass等信令解碼分析系統,對採集到的Gb口信令資料進行解碼翻譯,並且對訪問的網站網域名稱或通過文本和圖片分析對使用者所訪問的網頁內容進行識別,最終實現上網行為的分析。手機使用者GPRS上網流程經過5個步驟,分別是附著過程、PDP啟用、WAP串連、資料轉送與釋放連續。Gb口信令採集主要在於“WAP串連階段”,上網信令資料擷取的方法包括:分類採集、交換器連接埠鏡像採集等。手機使用者上網涉及的資料有:開始上網時間(也稱上線時間)、結束上網時間(下線時間)、使用者上線所在小區、所瀏覽的網站類型、瀏覽網站所傳輸的流量等。
同時,利用通訊基站定位技術,在使用者允許的條件下,可以記錄查詢使用者的位置與活動軌跡。
2.1.4 其它異常資料
例如:在手機實名制下,某使用者擁有多個手機號碼(10部以上),或者較短時間內頻繁地更換手機號,以及話費欠繳,為了區分無意欠繳,要重點關注話費欠繳累計逾期次數和最長逾期記錄。
當然,使用者畫像的資料可根據應用情境的需求,進一步進行衍生組合。例如,對於某手機使用者的社交網路,可以在(2.1.2)項中分析出關係穩定而且親密的網路成員(intimate relationship)的基礎上,進一步分析這些成員的(2.1.1)項中的年齡結構和套餐、(2.1.3)項中的上網行為等,特別是結合(2.1.4)項中有極個別聯絡的成員異常情況,已成為偵察破案發現線索的主要渠道之一。
2.2 MPP+Hadoop大資料技術架構
使用者畫像不是全息的,而且大資料的特點是資料量大但往往價值稀疏,所以,要從海量資料中挖掘有價值的特徵屬性,前提是設計提供性價比可以接受的大資料技術解決方案。
類似於經濟學中的現象,曾經有個“三元悖論”一直困擾著資料存放區與查詢分析的資源協調與管理,也就是說,由於自身屬性特點,Hadoop和MPP目前只能滿足以下的兩項功能,而不能滿足全部要求。具體來說,資料分析主要實現以下目標:
(1)即時。在這方面,單節點執行系統具有明顯優勢,這方面MPP表現突出,其他方式會一定程度上弱化即時效能。雖然新近出現的spark技術協助hadoop提高了即時效能,但實施成本過高,相關技術有待進一步的成熟完善。
(2)可擴充,即要按資料量的增加而擴容。MPP擴容到一定程度後因傳輸等因素將會受到限制,而Hadoop的Mapreduce在此方面表現較好。
(3)對資料複雜查詢與複雜分析的處理能力。Hadoop和MPP均可以通過演算法實現此功能,但會有難易與熟練程度上的差別。
圖1:電訊廠商“MPP+HADOOP”大資料技術架構
電信電訊廠商運用的“MPP+Hadoop”混搭模式可以較好地解決這一問題(所圖1所示)。其中,MPP主要針對BSS 域(業務支撐系統)的相關資料以及部分的OSS 域(網管支撐系統)資料,主要包括使用者身份資訊、費用賬單、欠費資訊、套餐資訊、登記住址以及接入網路類型、使用者終端類型等具有準確性和即時性要求的資料資訊。Hadoop主要針對MSS 域(管理支撐系統)、NSS 域(網路安全系統)以及部分OSS 域(網管支撐系統)的資料,主要包括活動位置軌跡、上下線時間、通訊時間長度、次數、訪問應用時間、上網偏好、投訴資訊、使用者感知狀態、社交網路、安全威脅情報等。
3. 使用者畫像在徵信方面的應用執行個體
2015年3月中國聯通與招商銀行下屬的永隆銀行出資組建了招聯消費金融公司,積極開展互連網消費金融業務。這種消費金融業務由於具有無擔保、無抵押的特點,可以採取相對靈活的信貸政策,進而擴大了信貸範圍,但也面臨著一定的風險。為提高履約水平,電信電訊廠商有必要從使用者畫像角度對個人消費信貸進行徵信管理。
個人信用評價實質是一個類別識別問題。由於個人徵信的基本過程,是將分散於不同來源的局部資訊,整合成為可以完整描述消費者信用狀況,因此電信電訊廠商的使用者畫像方法同樣適用於個人信用測評(2所示)
圖2:手機使用者畫像在個人徵信中的應用流程
可以這樣理解,所謂使用者畫像的應用,是根據情景需要對使用者標籤的再歸併組合以及對標籤重要性重新排序的過程。一般以為,使用者畫像的樣本可以從銀行個人信貸的記錄中進行篩選,但這種對已發放貸款的回收情況來進行邏輯判別,實質上會陷入“先驗性誤導”中。因為,所選取的有貸款業務的使用者已經被銀行風控部門進行了必要的審查和篩選,由此發生的信貸逾期呆壞賬,是基於貸前審核通過後的樣本,不是真正的完整的初審樣本。這裡,我們以人民銀行安徽省分行為例,對省內部分申請貸款的個人使用者進行實證分析。首先,選取3525個申請個人貸款的手機使用者為樣本,運用兩種方法進行信用評價,其中,一種方法是銀行根據現有的申請人的審核資料進行徵信,另一種方法是通過手機使用者畫像的方法進行徵信。具體步驟如下:
3.1 先由銀行風險管控部門人員根據銀行自身的信用評級標準(層次分析法,簡稱AHP法)對所有樣本進行打分;具體指標如表2所示。一般分為9級,為了進一步簡化區分,我們以銀行最終放貸決定為依據,將樣本分為“可予授信”樣本和“不予授信”樣本兩種。(當然,可授信樣本中也不能保證以後就不發生呆壞賬,一定程度的小額壞賬率也是銀行業務中的正常現象)。
3.2 根據徵信應用的情景需求,將手機使用者畫像的量化具體指標進行重新歸併與組合,如表3所示。
3.3 將所有樣本進一步分為兩部分,一部分為測試集,樣本數佔60%;另一部分為檢驗集,樣本數佔40%,並讓這兩個樣本集中的可授信和不可授信樣本佔有相同比率。
3.4 以銀行傳統評級結果為依據,運用監督學習演算法中的支援分量機,對測試樣本中的手機使用者畫像特徵進行維度約簡,找出關鍵屬性值組合。在分類過程中,變數多所獲得的資訊也相對多,其判斷正確性也將會比較高。但是變數多,代表著收集樣本的成本和時間增加,最好的方法是能以較少的變數,卻能獲得不錯的判斷正確性。在個人徵信中有效使用者畫像指標如表4所示(由於條件限制,沒有實施手機使用者上網行為資料的採集與分析)。
3.5 按上述得到的手機使用者畫像的屬性值組合,對檢驗樣本進行分類,並將分類結果與傳統的銀行AHP法進行對比,符合率達到94.35%,效果基本達標(如表5所示)。
尤其需要注意的是,手機使用者畫像法的可予授信樣本數小於銀行傳統方法的可予授信數,說明該方法授信標準更嚴,更趨保守,具有較好的穩健性。從中可以發現,運用手機使用者畫像的方式進行徵信在“薄資訊”狀態下,具有較高的有效性。當然,在“厚資訊”情景中,也具有一定的資訊補充功能,綜合利用效果更佳。
4. 結束語
在“互連網+”的背景下,大資料技術在電信電訊廠商的業務應用領域將不斷拓展,而智能手機技術和功能的不斷推陳出新,進一步觸發了消費模式的轉變、產業鏈的開放和更大範圍的資料融合。在妥善解決個人資訊安全與隱私保護的前提下,以客戶為中心的手機使用者畫像研究,有利於電訊廠商充分利用現有的資料資源,有效實現精準營銷和個人化服務,同時在個人徵信方面也可實施有益的探索與實踐。
作者簡介
丁偉,進階工程師,博士,主要從事投資規劃和大資料分析工作;王題,進階工程師,碩士,主要從事通訊網諮詢規劃設計工作;劉新海,副研究員,博士,主要從事信用風險管理、大資料和互連網金融。韓涵,助理研究員,博士,主要從事智慧城市、應急通訊和大資料分析工作。
參考文獻
[1]胡坤.劉明輝.宮雪.劉鏑.電信電訊廠商應用資料的安全管控與隱私保護研究[J].資訊通訊技術,2013(6)
[2]喬宏明.梁奐.電訊廠商面向大資料應用的資料脫敏方法探討[J].移動通訊,2015(13)
[3]李景文.宮大鵬.王睿.蘇雷.陳寧江.基於Hadoop的OSS域資料建模與採集方法研究[J].電信科學,2015,(1)
[4]辛晃.易興輝.陳震宇.基於Hadoop+MPP架構的電信電訊廠商網路資料共用平台研究[J].電信科學,2014,(4)
[5]陳清金.張岩.陳存香.雲端運算環境下的大資料分析[J].郵電設計技術,2015(5)
[6]魏進武.靳淑嫻.張基恒.李衛. 大資料關鍵技術及電訊廠商落地建議[J]. 郵電設計技術,2015(5)
[7]張雄.基於Gb 口信令分析的手機客戶上網行為的應用研究[D].廣州:華南理工大學,2012
[8]張慷.手機使用者畫像在大資料平台的實現方案[J],資訊通訊,2014(2)
[9]龐然. WAP日誌挖掘的研究及應用[D].北京:北京郵電大學,2008
[10]陳波.徵信系統中基於迭代SVM的自動相似記錄匹配方法[J].金融電子化2010(4)
[11]代亮.許宏科.陳婷.錢超.梁殿鵬.基於MapReduce的最小二乘支援向量機迴歸模型[J].電腦應用研究.2015(8)
[12]劉新海.丁偉.美國ZestFinance公司大資料徵信實踐[J].徵信,2015(8)
[13]趙華.金鐸.徐雄.電信電訊廠商開展互連網金融業務探討[J].廣東通訊技術,2014(10)
[14]林清泉.張建龍.楊豐.中國信用體系建設中的個人信用模糊評估[J].山西財經大學學報,2007(2)
[15]餘曉平.裴韜.手機通話網路度特徵分析[J].物理學報,2013(20)
[16]張玉才.宋新平.羅瑜. 基於模糊支援向量機的客戶信用評估研究[J].統計與決策,2008(7)
[17]徐金壘.方誌祥.蕭世倫.尹淩.城市海量手機使用者停留時空分異分析[J].地球資訊科學學報,2015(2)
[18]How to conquer ‘big data’ with MapReduce& MPP. http://venturebeat.com/2013/03/19/ how-to-conquer-big-data-with-mapreduce-mpp/
[19]Big data debate: will HBase dominate NoSQL.http://www.informationweek.com/ software/enterprise applications/big data debate will hbase dominate nosq/240159475
[20]C. Dwork, F. McSherry, K. Nissim and et al..Calibrating noise to sensitivity in private data analysis. Theory of Cryptography, 2006:265~284
基於大資料技術的手機使用者畫像與徵信研究