公司資訊化如何發揮資料採礦的效力(收藏)

來源:互聯網
上載者:User
資料   我國的銀行、證券、電信、保險行業都在大談“資料集中”,希望在此基礎上實現客戶關係管理和商業智慧。“資料採礦工程師”這個新穎的職位名稱,也隱約出現在企業的招聘職位欄裡。

資料採礦到底有沒有 用?一些企業的領導人對此懷有疑慮。資料採礦人員口裡念叨的是一些稀奇古怪的技術名詞,他們的出身複雜,即不完全是學電腦的,也不像統計學家,更不是營銷策劃人員,他們得到的結果不容易理解,他們的工作對我的企業發展到底意味著什嗎?一些技術出身的管理者可能會熱捧資料採礦,希望從中儘快找出新的商業模式,找到新的賺錢機會;而商業直覺強烈的管理者則容易抵觸這種精確的定量分析方法,資料採礦本身的缺陷也導致它容易遭受攻擊。

為了更好地發揮資料採礦的效力,需要的是企業管理者的理解、資料採礦人員的更多努力。本文作者根據過去資料採礦項目的經驗,試圖對一些混淆不清的問題做出解釋。

1.結果的應用

問題:資料採礦的結果有一部分是以機率資料的形式提交的,這是最容易招致非議的地方。企業管理者可能會問,我要你對我的客戶流失做出預測,為什麼你不能準確地告訴我究竟是哪些客戶下個月會流失?而只能告訴我每個客戶流失的機率。我要你預測哪些客戶會發生保險欺詐,你提交的仍然是客戶騙保的機率。這樣的機率值我如何使用,我敢用嗎?

解釋:資料採礦建立的預測模型,是對真實世界的近似,原因是企業客戶資料庫中儲存的客戶的行為資訊是不可能面面俱到的,可能沒有搜集儲存到的那些客戶資訊恰恰是與客戶是否流失或騙保最相關的資訊,因此依據已有的資訊建立的預測模型是不精確的,得不出確定性結果,而只能是機率值。這樣的結果仍然是有用的,因為預測出來的那些流失機率高的客戶中,實際流失的往往特別多,企業重點對這部分客戶實施挽留維繫,針對性就特彆強,能節省企業的資源開銷。同樣,欺詐機率較高的客戶中,實際發生欺詐行為的比率也比別的客戶群體中高出很多,因此專門的調查人員可以重點對這些客戶進行調查,往往事半功倍。資源的節省,即意味著效益的增長。

2. 變數的選擇

問題:建立預測模型是一個很迷人的想法。預測的目標比較好確定,你要預測客戶流失,那麼“客戶是否流失”(二值變數)就是目標變數;你要預測股票的漲跌,那麼“收市價是否上升”就是目標變數。但是如何確定哪些變數作為自變數(回想一下高中代數中關於函數的定義),則頗費周折。換句話說,要確定哪些因素與目標變數有關係,往往是見仁見智。這個問題解決不好,則會直接影響預測模型的效能。那麼,究竟應該是企業業務人員來決定,還是資料採礦人員決定呢?

解釋:最佳的方式是雙方的結合。企業業務人員長期的業務經驗,使他們能夠敏銳地感覺到哪些因素與目標變數密切相關。但是經驗是有局限的,甚至束縛人的思維,企業業務人員會遺漏很多表面無關但實際上很重要的因素,而且因為人腦的處理能力有限,有時不得不忽略一些因素及一些因素之間的複雜微妙的相互影響,而這正是資料採礦人員可以發揮作用的地方。統計學中有大量的成熟的方法,可以協助我們挑選合適的變數來構造我們的預測模型。

還有一種常見的現象:資料採礦人員挑選的某個變數,事後發現對模型精度的提高很有好處,但是可能得不到合理的業務解釋,這時候,企業業務人員會要求刪除這個變數。實際上,資料採礦的結果常常超出我們的想象,我們的本能就是趨向於拒絕無法理解的東西,甚至冒著損害模型預測效能的風險--這種做法是有害的,因為當前無法解釋並不意味著以後也無法解釋(據說沃爾瑪的“啤酒與尿布”的規則發現也是事後輔之以市場調研才得到解釋的);資料採礦結果並不是憑空得來,而是藉助於上千年來人類發展的數學理論在無數次證實有效複雜演算法基礎上得到的,不能簡單地予以否定;更何況,如果這個變數進入預測模型,被證明是有利於模型精度的,則去掉是很可惜的。不要忘記“實踐是檢驗真
理的唯一標準”這一基本法則。

3.對“提升度(lift)”的迷信

問題:在對預測模型的效能評估有所瞭解後,企業業務人員可能經常會問資料採礦工程師:“你的模型的提升度是多少?”似乎低於3.0就是一個壞模型。那麼究竟要達到多少才能夠接受呢?

解釋:提升度是衡量預測模型的一個重要指標,但不是唯一的。我們還有混合矩陣、響應捕獲率、ROC曲線、基於門限的診斷圖等等。不同行業的模型提升度是不同的,同一行業的不同地區也可能不同。我們曾經實驗過,用大致相同的自變數因素預測手機使用者流失,在廣東某地的模型的提升度只有2.2,而該模型在另一個時段應用時的提升度高達5.2,而在湖北某地能達到7.0。因此,模型的接受程度不能僅以提升度為標準,而應該以其預測結果能創造的效益來衡量,計算其投資報酬率。但是,資料採礦人員應該主動想辦法,嘗試不同的增強辦法,在不導致模型發生“過擬合”(Overfitting)的前提下,盡量提高模型的預測精度,因為模型精度的一個百分點上升,就可能意味著商家的上百萬元的增收節支。

4.細分的目的性

問題:資料採礦產生的客戶細分,與傳統的經驗細分相比,能夠考慮客戶更多的行為屬性,得到更豐富的細分可能性,每個客戶群體具有更鮮明的行為特徵。但是,什麼樣的客戶細分結果才是好的?將客戶分成多少個群體是最合適的?群體之間的人數相差懸殊是否就是一個很差的細分結果?

解釋:預測性模型的好壞有很多衡量指標,但客戶細分的模型效能則沒有一定的衡量標準。事先我們並不知道一個客戶應該屬於哪個群體。客戶的細分模型的好壞,更多地要從業務角度來評判。將客戶分成上百個群體,確實能夠達到更細緻地瞭解各群體客戶的目的,但是我們的客戶經理顧得過來嗎?現有的客戶管理系統能夠支援這麼多客戶群體的處理嗎?如果不能,則要量力而行少分幾個群體。群體之間的人數有時相差很大,可能是客戶總體中確實是有某些大群大群的客戶的行為很接近,同時也有一些小群小群的客戶展示出相同的行為特徵,這些人少的客戶群體可能是具有異常行為的一組人,例如,具有欺詐行為特徵的群體。如果業務處理上關係(例如,規定每個客戶經理負責大致相等數量的客戶),企業常常會要求將各個群體的人數細分得比較均勻一點,這時同一群體中客戶特徵的相似性會受到一點損害。

另外,因為資料採礦工具的強大,資料採礦人員可能會著迷於提出一大堆的細分結果,而忽視細分的目的,而企業業務人員則可能以為這些細分就是定論,不能再做調整。最佳的做法,應該是企業業務人員和資料採礦人員的緊密互動,根據業務需求確定細分方案,並嘗試多種調整,從中選擇一種合理合適的方案和結果。例如,如果想重點對客戶的長途通話行為予以細分,則可以多選取與長途有關的因素作為細分變數,甚至將這些變數乘以某個權重因子,更加強調它們的作用。

5.工具的選擇

問題:資料採礦工具的昂貴性是眾所周知的。貴的有數百萬元一套供租用兩年的,便宜的有數十萬元購買的。如何選擇?

解釋:應該根據企業的需求、預算、使用人員素質等方面來確定。如果每年需要建立數百個模型、資料和模型的管理非常複雜,資料採礦的預期效益非常大,使用人員具有很好的理論基礎和應用水平,則應該選擇功能強大、靈活快捷的挖掘工具;否則應該考慮那些功能相對單一、套件式的工具產品。企業可以留意一些諮詢機構推出的挖掘軟體評測報告。值得一提的是,國外流行的一些免費軟體,如ADE-4、Lisp-Stat、R等,也逐步被國內人士認識並使用。其中的R是一種獨立的編程軟體,具有眾多的程式包(Packages)可供調用,其開發靈活性幾乎不亞於如同SAS這樣的巨型商業軟體,但是對使用人員具有較高的要求。

6.不是“挖掘”能解決的問題

問題:企業界由於長期缺乏定量分析的傳統,在向分析人員提出業務需求時,並不是按照是否屬於資料採礦範疇來劃分的。例如,企業可能會提出如何最佳化自己的網路資源,如何對有眾多隨機因素的不確定系統(物流、工廠供應鏈、排隊系統等)提出最優的操作方案,如何根據現狀推演未來的市場份額變化和競爭優勢。資料採礦能夠勝任這些工作嗎?

解釋:學術意義上,這些都不屬於資料採礦的領域,而分別屬於運籌學、離散事件模擬、系統動力學模擬的領域。這些技術在目前我國企業的應用很少,資料採礦人員應該擴充自己的陣地,將自己的統計分析能力和資料建模能力往前推進一步,滿足企業的新的需要。例如,電信行業時常談論的“營銷預演”,即在營銷方案實施之前就能預知結果,從而事先調整好方案,以追求最佳的效果,實際上是一個典型的競爭動力學模擬問題,。這樣的問題,需要考慮時間因素,考慮因素之間的正、負反饋,對各種因素的相互作用建立起結構化模型,經過校正後,用於實際情境的預測。由於是在電腦上啟動並執行模型,企業管理者可以無風險地在模型上實驗自己的任何想法,檢驗各種因素調整對效益的影響,檢驗對競爭者的反應是否恰當,及自己的行為對市場環境會造成什麼影響。

總之,資料採礦連同其它的數學建模方法,對我國企業界挖潛革新、多創效益,將發揮越來越顯著的作用。這將依賴於企業業務人員和資料採礦人員和其它類分析人員的艱苦探索。
Author:嶽亞丁   


相關文章

Beyond APAC's No.1 Cloud

19.6% IaaS Market Share in Asia Pacific - Gartner IT Service report, 2018

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。