【資料採礦導論】——緒論,資料採礦導論

來源:互聯網
上載者:User

【資料採礦導論】——緒論,資料採礦導論
資料採礦導論讀書筆記之緒論
資料採礦的前提:資料收集和資料存放區技術的快速進步。資料採礦是一種技術,它將傳統的資料分析方法與處理大量資料的複雜演算法相結合。為探查和分析新的資料類型以及用新方法分析就有資料類型提供了令人振奮的機會。
資料採礦是在大型資料存放區庫中,自動的發現有用資訊的過程。
資料採礦與知識發現資料採礦是資料庫中知識發現不可缺少的一部分(knowledge deiscovery in database)KDD,KDD是將未加工的資料轉換為有用資訊的整個過程。
輸入資料:輸入各種形式儲存,並且可以駐留在幾種的資料存放區庫中,活分布在多個網站上。
資料預先處理:將未加工的輸入資料轉換成適合分析的形式。包括:融合來自多個資料來源的資料,清洗資料,以及消除雜訊和重複的觀測值,選擇與當前資料採礦任務相關的記錄和特徵。是整個知識發現過程中最費力,耗時的步驟。
後處理:將資料採礦的結果所揭示的規律結合商務工作管理工具,從而開展或者測試有效商務工作。使那些有效,有用的結果集成到決策支援系統中。
資料採礦需要解決的問題可伸縮由於資料產生和收集技術的進步,大資料越來越普遍。如果資料採礦演算法要處理這些海量資料集,演算法必須是可伸縮的(scalabe)。使用抽樣技術或者開發並行和分布演算法來提高延展性。
高維性現在資料通常是具有成千上百屬性的資料集。具有時間或者空間分量的資料集也經常具有很高的維度。為底維資料開發的傳統的資料分析技術通常不能很好處理高維度資料,此外,對於某些資料分析演算法,隨著維度(特徵數)的增加,計算複雜性迅速增加
異種資料和複雜資料傳統的資料分析方法只處理包含相同類型屬性的資料集,或者是連續的,或者是分類的。隨著資料採礦在商務,科學以及其他領域的作用越來越大,越來越需要處理異種屬性的技術。如:具有序列和三維結構的DNA資料等。為了挖掘這種複雜物件而開發的技術應當考慮資料間的聯絡。如:時間和空間的自相關性,圖的連通性等
資料的所有權與分布有時,需要分析的資料並非存放在一個網站或者歸屬一個機構,二十地理上分布屬於多個機構。這就需要開發分布式資料採礦技術。分布式資料採礦演算法面臨的主要挑戰包括:如何降低執行分散式運算所需要的通訊量,如何有效統一從多個資源得到的資料採礦結果,如何處理資料安全性等
非傳統的分析傳統的統計方法基於一種假設—檢驗的模式,即提出一種假設,然後設計實驗來收集資料,然後針對假設分析資料。但這一方法效率不高。因此需要自動的產生和評估假設。此外資料採礦所分析的資料通常不是精心涉及的實驗結果,而是資料的時機行樣本(opportunistic sample),不是隨機樣本(random sample)。

資料採礦的起源為了迎戰上述的挑戰,資料採礦利用了如下領域的思想:

  • 統計學的抽樣,估計,假設檢驗
  • 人工智慧,模式識別,機器學習的搜尋演算法,建模技術和學習理論
  • 最佳化
  • 進化計算
  • 資訊理論
  • 訊號處理
  • 可視化
  • 資訊檢索
  • 資料庫系統
  • 高效能並行計算技術
  • 分布式技術


資料採礦任務 通常分為兩大類: 預測任務:根據其他屬性的值,預測特定屬性的值。被預測的屬性稱目標變數(target variable)活因變數(dependent variable)。用來做預測的屬性稱為說明變數(explanatory variable)或者自變數(independent variable)
描述任務:匯出概括資料中潛在聯絡的模式(相關,趨勢,聚類,軌跡和異常),本質上,描述性資料採礦任務通常是探查性的。需要做後處理技術驗證和解釋結果
預測建模(predictive modeling)涉及以說明變數函數的方式為目標變數建立模型。有兩類預測建模任務:分類(classification)用於預測離散的目標變數;迴歸(regression)用於預測連續的目標變數。如:預測web使用者是否網購是分類,因為該目標變數是二值的。預測某股票的未來價格是迴歸的,因為價格具有連續值屬性。兩項任務都是訓練一個模型,是目標變數預測值與實際值之間的誤差達到最小。

關聯分析(association analysis)用來發現描述資料中強關聯特徵的模型。所發現的模式通常用蘊含跪著或者特徵子集的形式表示。由於搜尋通姦是指數規模,關聯分析的目標是以有效方式提取最有趣的模式。
群集(cluster analysis)旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比,屬於同一簇的觀測值相互之間儘可能類似。聚類可用來對相關的顧客分組,找出顯著影響地球氣候的海洋地區等。

異常檢測(anomaly detection)的任務是識別其特徵顯著不同於其他資料的觀測值。這樣的觀測值稱為異常點(anomaly)或離群點(outlier)異常檢測演算法的目標是發現真正的異常點。而避免錯誤地將正常的對象標註為異常點。換言之,好的異常檢測器必須具有高的檢測率和底的誤判率。應用程式套件括:檢測網路攻擊,欺詐等









《資料採礦導論》課後習題答案

  內容簡介
  本書全面介紹了資料採礦的理論和方法,將重點放在如何用資料採礦知識解決各種實際問題,涉及學科領域眾多,適用面廣。包含大量的圖表、綜合樣本和豐富的習題,並且使用樣本,關鍵演算法的簡潔描述和習題,儘可能直接聚焦於資料採礦的主要概念。本書不需要資料庫背景,只需要很少的統計學或數學背景知識,適合的讀者面較廣。

  本書全面介紹了資料採礦的理論和方法,旨在為讀者提供將資料採礦應用於實際問題所必需的知識。本書涵蓋五個主題:資料、分類、關聯分析、聚類和異常檢測。除異常檢測外,每個主題都包含兩章:前面一章講述基本概念、代表性演算法和評估技術,後面一章較深入地討論進階概念和演算法。目的是使讀者在透徹地理解資料採礦基礎的同時,還能瞭解更多重要的進階主題。此外,書中還提供了大量樣本、I虱表和習題。
  本書適合作為相關專業高年級本科生和研究生資料採礦課程的教材,同時也可作為資料採礦研究和應用開發人員的參考書。

  --------------------------------------------------------------------------------

  作者簡介
  現為密西根州立大學電腦與工程系助理教授,主要教授資料採礦、資料庫系統等課程。此前,他曾是明尼蘇達大學美國陸軍高效能運算研究中心副研究員(2002—2003)。

  --------------------------------------------------------------------------------

  編輯精選
  本書全面介紹了資料採礦的理論和方法,將重點放在如何用資料採礦知識解決各種實際問題,涉及學科領域眾多,適用面廣。包含大量的圖表、綜合樣本和豐富的習題,並且使用樣本,關鍵演算法的簡潔描述和習題,儘可能直接聚焦於資料採礦的主要概念。本書不需要資料庫背景,只需要很少的統計學或數學背景知識,適合的讀者面較廣。

  --------------------------------------------------------------------------------

  目錄

  第1章 緒論
  1.1 什麼是資料採礦
  1.2 引發資料採礦的挑戰
  1.3 資料採礦的起源
  1.4 資料採礦任務
  1.5 本書的內容與組織
 
《資料採礦導論》 電子書

去省書店買
 

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.