Thinking in BigDate(十)大資料之資料採礦技術(1)

來源:互聯網
上載者:User

       當大資料談到這裡,已經廢話加有用的話一大堆。就離那一步實施還是差這一點距離。在上篇部落格或以前的部落格,我們談到,我們的定位,是將傳統資料採礦的資料轉移到達資料平台上去處理,去節省時間,節省資源。但問題是,當我們沒有這麼大的資料,或我們有這麼大的資料,我們應該從哪一步入手。這就是我們接下來的幾篇部落格,要探討的問題。也是大資料的核心:資料採礦。從頭至尾我們都脫離不了資料採礦。其實從大學到現在一直都接觸資料採礦,但是我們不關心是什麼是資料採礦,我們關心的是我們如何通過資料採礦過程中找到我們需要的東西,而我們更關心的是這個過程是什嗎?如何開始?

       作為初學者的概念梳理是很有必要的。如果是大牛,這些部落格就略過吧。總結的過程也是一個學習的過程,通過有章節的整理對目前正在的學習的內容做規整。在這個過程中我們會從具體的項目實施中去談資料採礦,中間會貫穿很多的概念,演算法,業務轉換,過程,建模等等。

       我們列一下要談論的話題:

      1、什麼是資料採礦及為什麼要進行資料採礦?

      2、資料採礦在營銷和CRM中的應用?

      3、資料採礦的過程

      4、你應理解的統計學

      5、資料描述與預測:剖析與預測建模

      6、經典的資料採礦技術

      7、各類演算法

      8、資料倉儲、OLAP、分析沙箱和資料採礦

      9、具體的案例分析

 

       什麼是資料採礦?是知識發現、商業智慧、預測性分析還是預測建模。其實都可以歸為一類:資料採礦是一項探測大量資料以發現有意義的模式(pattern)和規則(rule)的商務程序。

       這裡談到了發現模式與規則,其實就是一項商務程序,為商務服務。而我們要做就是讓業務做起來顯得更簡單,或直接協助客戶如何提升業務。在大量的資料中找到有意義的模式和規則。在大量資料面前,資料的獲得不再是一個障礙,而是一個優勢。在現在很多的技術在大資料集上比在小資料集上的表現得更好——你可以用資料產生智慧,也可以用電腦來完成其最擅長的工作:提出問題並解決問題。模式和規則的定義:就是發現對業務有益的模式或規則。發現模式就意味著把保留活動的目標定位為最有可能流失的客戶。這就意味著最佳化客戶擷取資源,既考慮客戶數量上的短期效益,同時也考慮客戶價值的中期和長期收益。

       而在上面的過程,最重要的一點就是:如何通過資料採礦技術來維護與客戶之間的關係,這就是客戶關係管理,CRM。

       專註於資料採礦在營銷和客戶關係管理方面的應用——例如,為交叉銷售和向上銷售改進推薦,預測未來的使用者層級,建模客戶生存價值,根據使用者行為對客戶進行劃分,為訪問網站的客戶選擇最佳登入頁面,確定適合列入營銷活動的候選者,以及預測哪些客戶處於停止使用軟體包、服務或藥物治療的風險中。

       兩種關鍵技術:生存分析、統計演算法。在加上文本挖掘和主成分分析。

       經營有方的小店自然地形成與客戶之間的學習關係。隨著時間的推移,他們對客戶的瞭解也會越來越多,從而可以利用這些知識為他們提供更好的服務。結果是:忠實的顧客和盈利的商店。

       但是擁有數十萬或數百萬客戶的大公司,則不能奢望與每個客戶形成密切的隱私權關係。面臨這樣困境,他們必須要面對的是,學會充分利用所擁有的大量資訊——幾乎是每次與客戶互動產生的資料。這就是如何將客戶資料轉換成客戶知識的分析技術。

       資料採礦是一項與商務程序互動的商務程序。資料採礦以資料作為開始,通過分析來啟動或激勵行為,這些行為反過來又將建立更多需要資料採礦的資料。

       因此,對於那些充分利用資料來改善業務的公司來說,不應僅僅把資料採礦看作是細枝末節。相反,在業務策略上必須包含:1、資料收集。2、為長期利益分析資料。3、針對分析結果做出分析。

       CRM(客戶關係管理系統)。在各行各業中,高瞻遠矚的公司的目標都是理解每個客戶,並通過利用這種理解,使得客戶與他們做生意更加容易。同樣要學習分析每個客戶的價值,清楚哪些客戶值得投資和努力來保留,哪些准許流失。把一個產品為中心的企業轉變成以客戶為中心的企業的代價超過了資料採礦。假設資料採礦的結果是像一個使用者推薦一個小首飾而不是一個小發明,但是如果經理的獎金取決於小發明的季度銷售量而不是小首飾的銷售量(即便後者更為有利可圖或者收穫長期盈利更多的客戶),那麼資料採礦的結果就會被忽視,這就導致挖掘結果不能產生決策。

       我們要學會:從屬記錄的內容中學習。

       為什麼是現在要學會:

        ·資料正在產生,不斷的產生,不斷的更新

        ·資料正在儲存在資料倉儲中——資料倉儲以一個共同的格式彙集許多不同來源的資料,具有一致格式的關鍵字和欄位定義。業務系統旨在快速向終端提供結果,就對資料的格式和欄位有額外的要求。資料倉儲的建立是為提供決策而設計,簡化資料採礦工作者的工作。

        ·計算能力能夠承受

        ·對客戶關係管理的興趣非常強烈

        ·商業的資料發掘軟體已經形成

       資料採礦人員的技能:

        ·需要有數字技能

        ·Excel表格使用能力,現在Excel表格處理能力相當強大。自從Office 365出來之後,此勢不可小覷。

        ·一種態度:不畏懼為了得到結果可能需要處理大資料量和複雜的過程。處理大型資料集、資料倉儲以及分析沙箱是資料採礦成功的關健。資料採礦不僅僅是產生技術結果,結果必須用來協助人們(或者協助越來越多自動化的流程)做出更明智的決定。產生技術結果只是第一步,通過結果瞭解真正的需求,把結果轉化為資訊,資訊轉化為行動,行動轉化為價值,才是真正的目的。

        資料採礦的良性迴圈的重心在於業務的結果,而不只是利用先進的技術。

         ·識別業務機會

         ·挖掘資料將其轉換成可操作的資訊

         ·根據資訊採取行動

         ·度量結果

       資料採礦成功的關鍵是把其結合到商務程序中,並能夠促進資料採礦人員和使用結果的業務使用者之間的通訊。首先,必須明確,找到合適的業務需求,很多的人員,沒有在意這一點,導致解決的是對業務沒有協助的問題。

       在面臨不斷日新的社會,進步,遠不在改變,而在與變中的不變。即使改變時絕對的,但是仍有未改進之處以及沒有可能改變的方向:如果經驗不會保留,永遠保持幼年,那些不吸取教訓的人,註定要重蹈覆轍。

       當與業務人員討論資料採礦的機會時,確保重心在業務而不是技術和演算法。讓我們的技術專家專註技術,同時讓我們業務專家專註業務。

       電信客戶流失:

        一個關鍵因素是過度呼叫,新的客戶在第一個月使用的分鐘數超過了他們的費用的計劃,當第一月的的賬單往往在第二月中旬送達客戶,客戶才瞭解費用使用計劃。到那個時候,客戶已經在第二個月產生了一個很大的賬單,導致客戶很不快樂。遺憾的是客戶服務人員也要等相同的時間等賬單周期到之後才能檢測到過度使用的狀況,致使沒有時間來主動反應。其實在這個過程中導致問題產生的原因就是,反饋時間的問題,如果在這個月末,分析報告能夠給出明確的預測或建議,上面的問題就會有很大的改善。這中間可以能也會包括電訊廠商之間的手段問題,這個暫時不考慮。

       上述問題折中的解決辦法:新生的資料採礦組擁有資源,而且已經鑒別和調查了適當的資料來源。採用一些相當簡單的程式,該小組能夠在這些客戶中第一次過度呼叫時把他們標識出來。使用這個資訊,客戶中心能夠聯絡處於風險中的客戶,並在第一個賬單失效之前把他們移到適當的賬單計劃中。

       問題很簡單:在實驗室工作的很好的模型,為什麼走出實驗室就不能工作?一個問題在於它通過記憶資料過擬合了模型集。這就導致在實驗室很成功的模型,拿到實際就令人很失望。建模的目標不是產生最好的模型。資料採礦的目標是能處理現實世界中的問題,從而可以影響某種變化。你需要的穩定,即該模型不僅在模型集中工作的很好,在未知的資料上工作的也得很好。

       導致不穩定有四大原因:

       1、把事情搞錯:由於不瞭解具體的需求,就動手。導致矛盾在實際過程中爆發。

       2、過擬合:該模型記憶模型集,而不是認識更多的一般模式。人們很在意認識模式(字面上的認識),致使認識模式可能脫穎而出。而認識模式(實際意義)卻並非如此。一個過擬合的例子。

       3、樣本偏置:利用建立模型的資料無法準確地反映真實的世界,當不是通過未經處理資料的隨機抽樣建立模型時,這問題就可能發生。比如:一個地區的資料與另一個地區資料的關鍵詞不同,所以不能硬性的把一個地區的資料強加到另一個地區。

       4、未來的事情可能與過去的不一樣:模型是建立在曆史資料上的,但利用在其他時段。這裡隱含一個假設——用過去發生的事情指導未來發生的事情。雖然不要求模型總是假設過去式未來的序幕。

        時間幀:

       模型集中的每個變數都有一個與它相關的時間幀,它描述了該變數產生作用的時間段。可以理解為對在過去一段時間的資料的整合,超過這個時間的資料就作廢。

       輸入變數和目標變數都有時間幀。輸入變數的時間幀嚴格早於目標變數,任何建立在此模型集上的模型都是一種預測模型。另一方面:當輸入變數和目標來自同一個時間幀內,它們產生剖析模型。

       預測模型:

       很多資料採礦問題都可以概括為預測問題:基於過去的響應,基於過去的相應,誰將會有相應?基於過去的登出記錄,誰有一個不良風險?解決問題最好的辦法是限定輸入變數嚴格產生於目標變臉之前。

       如:考慮到一個零售商,它擁有一個目標網站,並計劃在9月份舉行一個活動。我們的目的,收集9月1日之前的資料,並對這些資料建立一個模型,以確定哪些客戶才加該活動,以及應採用哪些的營銷措施。應該使用什麼樣的資料建立模型?而且應該使用相同時間段的資料進行此模型評分。把日曆回翻一年,即前一年的9月1日,對那個使用者資料作為一個起點,然後把結束日期放到去年年底的營銷資料上,這種就保證沒有“未來”資料的輸入資訊會影響模型的目標估計能力。

       預測面臨的挑戰是建立模型集所需的工作量。把日曆往回翻,這一做法寫起來很容易,但是在以客戶為中心、正常化的資料倉儲中很難實現。目的結果是為了擷取更穩定的結果,這些模型能發現導致客戶的一些重要行為的原因。

       剖析模型:

       剖析,從字面上的理解是,基於人口統計變數,例如:地理位置、性別和年齡等。剖析模型能發現同一條件下的關係,但他們不能指出原因和影響。出於這個原因,剖析模型經常使用客戶的人口統計資訊作為輸入,而把客戶行為作為目標,在這種情況下,確定原因和影響更直觀。

       有指導資料採礦方法:

        ·把業務問題轉換為資料採礦問題

        ·選擇合適的資料

        ·認識資料

        ·建立一個模型集

        ·修複問題資料

        ·轉換資料以揭示資訊

        ·構建模型

        ·評估模型

        ·部署模型

        ·評估結果

        ·重新開始



(有指導資料採礦過程)

       下面我們將分別闡述接下來的10個步驟,來完成一個完整的有指導的基本資料採礦過程。



           參考《資料採礦技術》


CopyrightBUAA

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.