【資料採礦導論】——資料類型,資料採礦導論

來源:互聯網
上載者:User

【資料採礦導論】——資料類型,資料採礦導論
資料類型
資料集的不同表現在很多方面。例如:描述資料對象的屬性可有具有不同的類型——定量的或者定性的。並且資料集可能還具有特定的性質,如包含時間序列或者彼此相關聯。這因為如此,資料的類型決定我們應使用何種工具和技術來分析資料。此外,資料採礦的研究也是為了適應新的應用領域和新的資料類型。
資料的品質資料通常遠非完美,儘管大部分的資料採礦技術都容忍不完美的資料,但注重理解和提高資料品質將是改進精確分析結果的重要途徑之一。
使資料適合挖掘的預先處理步驟通常,未經處理資料必須經過加工才能適合分析。而加工處理一方面是提高資料的品質,另一方面讓資料更好的適應特定的資料採礦技術或者工具。
根據資料聯絡分析資料資料分析的一種方法是找出資料對象之間的聯絡,之後使用這些聯絡而不是資料對象本身進行其餘的分析。
通常,資料集可以看作資料對象的集合。資料對象可以是:記錄,點,向量,模式等。資料對象用一組刻畫對象基本特性的屬性描述,如:變數,欄位,特徵或者維。
屬性與度量什麼是屬性:屬性(attribute)是對象的性質或者特性,它因對象而異或隨著時間變化而變化。追根溯源,屬性並非數字或符號。然而為了討論和分析對象的特性,我們賦予了它們數字和符號。為了用一種明確定義的方式做到這點,我們需要測量標度。
測量標度(mreasurement scale)是將數值或符號值與對象的屬性相關聯的規則(函數)。形式上,測量過程是使用測量標度將一個值與一個特定對象的特定屬性相關聯。雖然說的有些抽象。但在生活中,我們無時無刻的進行測量過程,如:上公交車,會看有沒有剩餘的座位能坐等。這些情況下,都是對象屬性的物理值被映射到數值或符號值。
屬性的類型從前面得知,屬性的性質不必與用來度量它的值的性質相同。即,用來代表屬性的值可能具有不同與屬性本身的性質,反之亦然。

屬性的類型告訴我們,屬性的那些性質反映在用於測量它的值中。知道屬性的類型的重要性,因為它告訴我們測量值的那些性質與屬性的基本性質一致,從而使我,惡魔得以避免計算僱員的平均ID這也愚蠢的行為,需要注意的是,通常將屬性的類型稱作測量標度的類型。

屬性的不同類型一種指定屬性類型的有用方法是:確定對應屬性基本性質的數值的性質。如:長度的屬性可以有數值的許多性質,按長度比較對象,確定對象的排序,以及長度的差與比例都是有意義的。數值如下的操作通常用來描述屬性:
給定這些性質,我們可以定義出四種屬性類型:標稱(nominal),序數(ordinal),區間(interval),比率(ratio)。
屬性的類型也可以用不改變屬性意義的變換來描述,如:長度可用米或者英尺來度量。下表給出上表的四種屬性類型的允許變換:
用值的個數描述屬性區分屬性的一種獨立的方法就是根據屬性可能取值的個數來判斷離散的(discrete)離散屬性具有有限個或無限個可數個值。通常離散屬性應整數變數表示。二元屬性(binary attribute)是離散屬性的一種特殊情況,只接受兩個值:真假,是否,01等。二元屬性用布爾變數表示。
連續的(continuous)連續屬性是取實數值的屬性。如溫度,高度等。通常,連續屬性用浮點變數表示。
從理論上講,任何測量標度類型(標稱的,序數的,區間的,比率的)都可以與基於屬性值個數的任意類型(二元的,離散的,連續的)組合。有些組合并不常出現,或者沒有什麼意義。
非對稱屬性對於非對稱屬性(asymmetric attribute),出現非零屬性值才是重要的。如:對於一個,每個對象都是學生的資料集。每個屬性記錄學生是否選修大學的某個課程。對於某個學生,選修某個屬性的課程,值為1,否則為0。由於學生只能選所有可選的課程的一部分,因此這種資料集的大部分值為0,因此關注非零值將更有意義。只有非零值才重要的二元屬性是非對稱的二元屬性。

資料集的類型資料集的類型有很多,一般我們將資料集分為三組:記錄資料,基於圖形的資料和有序資料。
資料集的一般特性維度(dimensionality)資料集的維度是資料集中的對象具有的屬性數目,分為底,中,高維度。在分析資料的時候,最好將資料的維度降低。因為在分析高維度資料的時候,會陷入所謂的維災難(curse of dimensionality)。因此,資料預先處理的一個重要的動機就是減少維度,稱為維歸約(dimensionality reduction)
稀疏性(sparsity)有些資料集,如具有非對稱特徵的資料集,一個對象的大部分屬性上的值都是0,在許多情況下,非零項還不到1%。事實上,稀疏性是一個優點,因為只有非零值才需要儲存和處理。這將大大節省計算時間和儲存空間。
解析度(resolution)常常可以在不同的解析度下得到資料,且在不同的解析度下資料的性質也不同。如:在幾米的解析度下,地表看起來很不平坦,但在數十公裡的解析度下卻相對平坦。

記錄資料許多資料採礦任務都是假定資料集是記錄(資料對象)的彙集,每個記錄包含固定的資料欄位(屬性)集。下面介紹不同類型的記錄資料:
交易資料或購物籃資料 交易資料(transaction data)是一種特殊類型的記錄資料,其中每個記錄(資料)涉及一系列的項。考慮顧客一次購物所買的商品集合構成一個事務,而所有購買的商品作為項。這種類型的資料稱作購物籃資料(market basket data)。
資料矩陣如果一個資料集族中所有資料對象都具有相同的數值屬性集,則資料對象可以看作多維空間的點(向量),其中每個維代表對象的一個不同屬性。這樣的資料對象集可以用一個m*n的矩陣表示,其中m行,一個對象一行;n列,一個屬性一列。這種矩陣稱作資料矩陣(data matrix)模式矩陣(pattern matrix)。
稀疏資料矩陣稀疏資料矩陣是資料矩陣的一種特殊的情況,其中屬性的類型相同並且是非對稱的,即只有非零值才是重要的。交易資料是僅含0-1元素的稀疏資料矩陣的例子。另一個常見的便是文檔資料。文檔集合的表示通常稱作文檔-詞矩陣(document-term matrix),2-2d,文檔是該矩陣的行,詞是該矩陣的列。

基於圖形的資料有時圖形可以有效表示資料,但有兩種特殊的情況:圖形捕獲資料對象之間的聯絡;資料對象本身用圖形表示。
擔憂對象之間聯絡的資料對象之間的聯絡常常攜帶重要的資訊。這種情況下,資料常常用圖形表示。一般把資料對象映射到圖的結點,而對象之間的聯絡用對象之間的鏈或方向,權值等表示。如相互連結的網頁。
具有繪圖物件的資料如果對象具有結構,即對象包含具有聯絡的子物件,則這樣的對象常常用圖形表示。如化學物的結構用圖形表示。

有序資料對於某些資料類型,屬性涉及到時間或空間序的聯絡。如下:
時序資料時序資料(sequential data)也稱時間資料(temporal data),可以看作記錄資料的擴充,其中每一個記錄包含一個與之相關聯的時間。時間也可以與每個屬性相關,如:每個記錄可以是一位顧客的購物曆史,包含不同時間購買的商品列表。使用這些資訊,我們也許可能發現:買了iPhone的人是不會在關注那些低端的android機的。
序列資料序列資料(sequence data)是一個資料集合,它是各個實體的序列,如:詞或字母的序列,基因組序列等
時間序列資料時間序列資料(time series data)是一種特殊的時序資料,其中每個記錄都是一個時間序列(time series),即一段時間以來的測量序列。2-4c,記錄的是一個地方1982年到1994年月平均的時間序列。需要注意的是:在分析時間資料時,需要考慮時間自相關(temporal autocorrelation),即如果兩個測量的時間很近,則這些測量的值通常非常的相似。
空間資料某些資料也許還會擁有空間屬性,如位置或地區。空間資料的例子有很多,比如:從不同地方收集氣象資料。空間資料的一個重要的特點就是空間自相關性(spatial autocorrelation),即物理上靠近的對象趨向於其他方面也相似。

處理非記錄資料大部分資料採礦演算法都是為記錄資料或其變體(交易資料,資料矩陣)設計的。通過對象中提取特徵,並使用這些特徵建立對應與每個對象的記錄,針對記錄資料的技術也可以用與非記錄資料。如化學結構的資料,給定一個常見的子結構集合,每個化合物都可以用一個具有二元屬性的記錄表示,這些二元屬性指出化合物是否包含特定的子結構,這也的表示實際上是交易資料集,其中事務是化合物,而項是子結構。

《資料採礦導論》 電子書

去省書店買
 
《資料採礦導論》課後習題答案

  內容簡介
  本書全面介紹了資料採礦的理論和方法,將重點放在如何用資料採礦知識解決各種實際問題,涉及學科領域眾多,適用面廣。包含大量的圖表、綜合樣本和豐富的習題,並且使用樣本,關鍵演算法的簡潔描述和習題,儘可能直接聚焦於資料採礦的主要概念。本書不需要資料庫背景,只需要很少的統計學或數學背景知識,適合的讀者面較廣。

  本書全面介紹了資料採礦的理論和方法,旨在為讀者提供將資料採礦應用於實際問題所必需的知識。本書涵蓋五個主題:資料、分類、關聯分析、聚類和異常檢測。除異常檢測外,每個主題都包含兩章:前面一章講述基本概念、代表性演算法和評估技術,後面一章較深入地討論進階概念和演算法。目的是使讀者在透徹地理解資料採礦基礎的同時,還能瞭解更多重要的進階主題。此外,書中還提供了大量樣本、I虱表和習題。
  本書適合作為相關專業高年級本科生和研究生資料採礦課程的教材,同時也可作為資料採礦研究和應用開發人員的參考書。

  --------------------------------------------------------------------------------

  作者簡介
  現為密西根州立大學電腦與工程系助理教授,主要教授資料採礦、資料庫系統等課程。此前,他曾是明尼蘇達大學美國陸軍高效能運算研究中心副研究員(2002—2003)。

  --------------------------------------------------------------------------------

  編輯精選
  本書全面介紹了資料採礦的理論和方法,將重點放在如何用資料採礦知識解決各種實際問題,涉及學科領域眾多,適用面廣。包含大量的圖表、綜合樣本和豐富的習題,並且使用樣本,關鍵演算法的簡潔描述和習題,儘可能直接聚焦於資料採礦的主要概念。本書不需要資料庫背景,只需要很少的統計學或數學背景知識,適合的讀者面較廣。

  --------------------------------------------------------------------------------

  目錄

  第1章 緒論
  1.1 什麼是資料採礦
  1.2 引發資料採礦的挑戰
  1.3 資料採礦的起源
  1.4 資料採礦任務
  1.5 本書的內容與組織
 

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.