資料採礦的常見方法

來源:互聯網
上載者:User

資料採礦的常見方法

基本概念

資料採礦就是從大量的、不完全的、有雜訊的、模糊的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。確切地說,作為一門廣義的面嚮應用的交叉學科,資料採礦整合了許多學科中成熟的工具和技術,包括資料倉儲技術、統計學、機器學習、模型識別、人工智慧、神經網路等等。

過程模型

對企業來說,資料採礦就是在“資料礦山”中找到蘊藏的“知識金塊”,協助企業減少不必要投資的同時提高資金回報。目前應用最為廣泛的資料採礦過程模型是CRISP-DM跨行業資料採礦過程標準,Cross-IndustryStandard Process for Data Mining)。CRISP-DM將整個資料採礦期分為6個階段:商業理解BusinessUnderstanding)、資料理解DataUnderstanding)、資料準備Data preparation)、建模Modeling)、評估Evaluation)、布署Deployment)。CRISP-DM資料採礦過程模型如:

650) this.width=650;" src="http://www.bkjia.com/uploads/allimg/131228/220P94546-0.png" title="資料採礦.png" />


常用方法

資料採礦中大部分方法都不是專為解決某個問題而特製的,方法之間也不互斥。不能說一個問題一定要採用某種方法,別的就不行。一般來說,針對某個特定的資料分析課題,並不存在所謂的最好的方法,在最終決定選取哪種模型或方法之前,各種模型都試一下,然後再選取一個較好的。各種方法在不同的資料環境中,優劣會有所不同。

資料採礦的方法主要有:關聯分析群集預測、時序模式分析偏差分析等。

常見和應用最廣泛的演算法和模型有:

1、傳統統計方法:抽樣技術、多元統計分析和統計預測方法等。

2、可視化技術:用圖表等方式把資料特徵直觀地表述出來。

3、決策樹:利用一系列規則劃分,建立樹狀圖,用樹形結構來表示決策集合,可用於分類和預測,常用的演算法有CART、CHAID、ID3、C4.5、C5.0等。

4、人工神經網路:類比人的神經元功能,從結構上模仿生物神經網路,經過輸入層、隱藏層、輸出層等,對資料進行調整、計算,最後得到結果,是一種通過訓練來學習的非線性預測模型,可以完成分類、聚類、特徵挖掘、迴歸分析等多種資料採礦任務。

5、遺傳演算法:基於自然進化理論,在生物進化的概念基礎上設計的一種最佳化技術,它包括基因組合、交叉、變異和自然選擇等一系列過程,通過這些過程以達到最佳化的目的,類比基因聯合、突變、選擇等過程的一種最佳化技術。

6、關聯規則挖掘演算法:關聯規則是描述資料之間存在關係的規則,形式為“A1∧A2∧…∧An→B1∧B2∧…∧Bn”。一般分為兩個步驟:第一步,求出頻繁資料項目集;第二步,用頻繁資料項目集產生關聯規則。

7、最近鄰技術:這種技術通過已辨別記錄的組合來辨別新的記錄,它可以用來做聚類和偏差分析。


相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.