主要分類方法介紹
主要分類方法介紹解決分類問題的方法很多[40-42] ,單一的分類方法主要包括:決策樹、貝葉斯、人工神經網路、K-近鄰、支援向量機和基於關聯規則的分類等;另外還有用於組合單一分類方法的整合學習演算法,如Bagging和Boosting等。
(1)決策樹
決策樹是用於分類和預測的主要技術之一,決策樹學習是以執行個體為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的執行個體中推理出以決策樹表示的分類規則。構造決策樹的目的是找出屬性和類別間的關係,用它來預測將來未知類別的記錄的類別。它採用自頂向下的遞迴方式,在決策樹的內部節點進行屬性的比較,並根據不同屬性值判斷從該節點向下的分支,在決策樹的分葉節點得到結論。
主要的決策樹演算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT演算法等。它們在選擇測試屬性採用的技術、產生的決策樹的結構、剪枝的方法以及時刻,能否處理大資料集等方面都有各自的不同之處。
(2)貝葉斯
貝葉斯(Bayes)分類演算法是一類利用機率統計知識進行分類的演算法,如樸素貝葉斯(Naive Bayes)演算法。這些演算法主要利用Bayes定理來預測一個未知類別的樣本屬於各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別。由於貝葉斯定理的成立本身需要一個很強的條件獨立性假設前提,而此假設在實際情況中經常是不成立的,因而其分類準確性就會下降。為此就出現了許多降低獨立性假設的貝葉斯分類演算法,如TAN(Tree Augmented Naïve Bayes)演算法,它是在貝葉斯網路結構的基礎上增加屬性對之間的關聯來實現的。
(3)人工神經網路
人工神經網路(Artificial Neural Networks,ANN)是一種應用類似於大腦神經突觸聯結的結構進行資訊處理的數學模型。在這種模型中,大量的節點(或稱”神經元”,或”單元”)之間相互聯結構成網路,即”神經網路”,以達到處理資訊的目的。神經網路通常需要進行訓練,訓練的過程就是網路進行學習的過程。訓練改變了網路節點的串連權的值使其具有分類的功能,經過訓練的網路就可用於對象的識別。
目前,神經網路已有上百種不同的模型,常見的有BP網路、徑向基RBF網路、Hopfield網路、隨機神經網路(Boltzmann機)、競爭神經網路(Hamming網路,自組織映射網路)等。但是當前的神經網路仍普遍存在收斂速度慢、計算量大、訓練時間長和不可解釋等缺點。
(4)k-近鄰
k-近鄰(kNN,k-Nearest Neighbors)演算法是一種基於執行個體的分類方法。該方法就是找出與未知樣本x距離最近的k個訓練樣本,看這k個樣本中多數屬於哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學習方法,它存放樣本,直到需要分類時才進行分類,如果樣本集比較複雜,可能會導致很大的計算開銷,因此無法應用到即時性很強的場合。
(5)支援向量機
支援向量機(SVM,Support Vector Machine)是Vapnik根據統計學習理論提出的一種新的學習方法[43] ,它的最大特點是根據結構風險最小化準則,以最大化分類間隔構造最優分類超平面來提高學習機的泛化能力,較好地解決了非線性、高維數、局部極小點等問題。對於分類問題,支援向量機演算法根據地區中的樣本計算該地區的決策曲面,由此確定該地區中未知樣本的類別。
(6)基於關聯規則的分類
關聯規則挖掘是資料採礦中一個重要的研究領域。近年來,對於如何將關聯規則挖掘用於分類問題,學者們進行了廣泛的研究。關聯分類方法挖掘形如condset→C的規則,其中condset是項(或屬性-值對)的集合,而C是類標號,這種形式的規則稱為類關聯規則(class association rules,CARS)。關聯分類方法一般由兩步組成:第一步用關聯規則挖掘演算法從訓練資料集中挖掘出所有滿足指定支援度和信賴度的類關聯規則;第二步使用啟發學習法方法從挖掘出的類關聯規則中挑選出一組高品質的規則用於分類。屬於關聯分類的演算法主要包括CBA[44] ,ADT[45] ,CMAR[46] 等。
(7)整合學習(Ensemble Learning)
實際應用的複雜性和資料的多樣性往往使得單一的分類方法不夠有效。因此,學者們對多種分類方法的融合即整合學習進行了廣泛的研究。整合學習已成為國際機器學習界的研究熱點,並被稱為當前機器學習四個主要研究方向之一。
整合學習是一種機器學習範式,它試圖通過連續調用單個的學習演算法,獲得不同的基學習器,然後根據規則群組合這些學習器來解決同一個問題,可以顯著的提高學習系統的泛化能力。組合多個基學習器主要採用(加權)投票的方法,常見的演算法有裝袋[47] (Bagging),提升/推進[48, 49] (Boosting)等。
有關分類器的整合學習見圖2-5。整合學習由於採用了投票平均的方法組合多個分類器,所以有可能減少單個分類器的誤差,獲得對問題空間模型更加準確的表示,從而提高分類器的分類準確度。
圖2-5:分類器的整合學習
以上簡單介紹了各種主要的分類方法,應該說其都有各自不同的特點及優缺點。對於資料庫負載的自動識別,應該選擇哪種方法呢?用來比較和評估分類方法的標準[50] 主要有:(1)預測的準確率。模型正確地預測新樣本的類標號的能力;(2)計算速度。包括構造模型以及使用模型進行分類的時間;(3)強壯性。模型對雜訊資料或空缺值資料正確預測的能力;(4)延展性。對於資料量很大的資料集,有效構造模型的能力;(5)模型描述的簡潔性和可解釋性。模型描述愈簡潔、愈容易理解,則愈受歡迎。
原文:http://hi.baidu.com/gf271828/item/1d5640d692ceeac71a72b470