接著上面部落格繼續探討:有指導資料採礦方法模型步驟
5、修複問題資料
所有資料都是髒的。所有的資料都是有問題。究竟是不是問題有時可能隨著資料採礦技術的變化而變化。對於某些技術,例如決策樹,缺失值和離群點並不會造成很大的麻煩,但是對於其他技術,例如迴歸和神經網路,它們會產生很多問題。
5.1分類變數的值太多
有許多值的變數必須以某種方式來處理。一種方法是對這些值進行分組,即把與目標變數關係相同的多個類別的值放在一起。
5.2包含偏態分布和離群點的數值變數
關於離群點和偏態分布的資料,採用:把所有變數和權重值相乘,然後求和。有時也採用,把這些值分成同等大小的值域,例如:小數點後的資料,我們採用最好轉換這些資料,通過對值的標準化來縮小這些值的範圍。
5.3缺失值
把缺失值納入模型中,但是模型本身去不能處理缺失值,丟棄這些值又會照成誤差,因為這些值是不均勻分布的。方法:替換,用平均值或最常見的值來替換。替換缺失值為一本不可能的值會產生更壞的結果。
一些資料採礦工具提供了填充缺失值的功能,這些方法基本上市使用資料採礦技術找出缺失值應該取什麼值。
然而有些值往往由於很正常的缺失。例如,探究使用一年歷史資料的模型,對於在一年以上使用的使用者就會出現問題。他們在多出的時間裡,那部分資料是空的。還有些客戶與資料庫不匹配,致使所有的人口統計值丟失。這時候,我們採用的是在不同部分的資料上建立多個模型。對超過一年的使用者,一個模型。對近期的客戶建立另一模型。按照自己的意願,建立多個模型。
在建立模型的是要特別注意,記錄被拋棄的資料。通常模型被分解成不包含缺失值的子集,然後對每個子集建立一個單獨的模型。
6、轉換資料以揭示資訊
在已經彙總了資料並修複了主要問題的資料問題後,準備對資料進行分析。這可能需要加入派生欄位來揭示一些資訊。還可能涉及要刪除離群點、分箱,對分類變數進行分組以及應用一些轉換,例如:對數轉換、把計數變成比例等。
7、構建模型
在有指導資料採礦中,訓練集用於根據獨立的目標或輸入變數產生相關依賴或目標變數的解釋。這種解釋為,神經網路、決策樹、連結圖、或其他關係的表示,即目標與資料庫中其他欄位之間的關係。一般這些工作室友資料採礦軟體自動完成。
8、評估模型 空缺,後面會具體的探討如何評估一個模型。9、部署模型
資料採礦工具把評分代碼當作模型部署過程中的一部分。這個評分可以利用:SAS或SPSS,或使用程式設計語言,C、java或C#。然而模型代碼的部署只解決了一半問題,因為模型通常使用不存在於未經處理資料中的輸入變數。模型的評分是一個很大的挑戰性,尤其當要對模型進行即時評分時。例如:當一個客戶把一件物品放到購物籃中或訪問Web頁面時,Web應用程式都需要對模型進行評分。這樣的評分必須非常迅速,因為客戶評分的過程不能干擾網站導航的便利性。
9.1最佳化模型進行部署
評估模型盈利需要考慮模型的成本和收益是否正確的情況。針對不同大小的人群,通過圖表可以顯示一個活動的額實際盈利能力。
評估模型的盈利需要詢問以下幾個問題:
·設立活動和支援它的模型的固定成本是多少
·每個優惠接受者的成本是多少、
·每個優惠響應者的成本是多少
·正面響應的價值是多少
當盈利模型的品質取決於它的輸入。雖然活動的成本和可變成本是很容易得到的,但是響應者的預測值很難估計。搞清楚客戶的價值是超出了討論範圍,但一個良好的故居有助於度量資料採礦模型的價值。
最後,最重要的度量是投資報酬率。度量測試集的提升有助於選擇合適的模型。基於提升的盈利計算有助於決定如何應用該模型的結果。但是,度量這些欄位中的資訊也非常重要。在一個資料庫營銷的應用中,這樣做需要撇開對照組,並根據不同的模型分數仔細跟蹤客戶的響應,制定合適的方案。
10、評估結果
一個典型的模型需要不同的測試組:
·檢驗組:具有較高的模型分數,比那個接收到反饋資訊的組
·模型對照組:具有較高的模型分數,但是沒有得到反饋資訊的組
·控制組:模型分數較低或是隨機的,並且接收到資訊的組
·對照組:具有隨機的模型分數,並且沒有收到反饋資訊的組
11、重新開始
每一個資料採礦項目產生的問題比答案要多,這是件好事。這意味著一些以前不可見的新關係現在可見。新發現的關係提出了新的需要測試的假設,而資料採礦的過程將重新開始。重新挖掘反饋有效資訊。
總結:
有指導的資料採礦就是搜尋歷程記錄,從而找到能解釋一個特定結果的模式。有指導資料採礦模型的兩個類別分別是剖析模型和預測模型。這些類型使用相同的技術和方法:它們之間的區別僅僅在於模型集的構造方式。
有指導資料採礦問題解決方案可能涉及多個串聯起來的模型。因此,一個交叉銷售模型可能針對每個產品採用不同的預測模型,並使用決策規則以選中最佳結果。響應模型可用於最佳化盈利,它真正地計算了響應的期望值,而不是響應的可能性。一個更複雜的方法是使用增量響應模型,這時的目標是營銷工作影響響應率的增加,而不僅是響應率本身。
在資料採礦模型建立過程中,第一道坎就是把資料採礦問題轉換成業務問題。下一個挑戰就是找到適當的資料,這些資料可以轉化為可操作的資訊。找到資料後,應當對其進行深入探索,探索過程可能會發現一些資料問題。它也將有助於建立資料採礦人員對資料的直觀理解。下一步就是建立一個模型集,並把它劃分為訓練集、驗證集和測試集。
資料轉換是必須的,兩個目的:一、修複一些資料相關的問題,例如缺失值和值太多的分類變數。二、揭示一些資訊,通過創新的變數來代表趨勢、其他比例和組合。後面在詳細談資料如何轉換。
當資料轉換好了,構建模型就是一個相對容易的事情。每類模型有自己的指標,通過這些指標可以評估它,獨立於模型之外的評估方法也是可行的。其中有一些很重要的評估方法是增益圖和ROC圖,這些方法表明了該模型的如何增加目標變數預測值的濃度,並給出混淆矩陣以顯示二元相應模型誤分類的錯誤率,還為數值目標顯示分數分布圖。後面我們會基於這個方法更深入的探討有指導資料採礦技術是如何構建自己的模型。
參考《資料採礦技術》
CopyrightBUAA