資料採礦演算法Analysis Services-基於SQL Server的資料採礦

來源:互聯網
上載者:User

標籤:des   http   io   ar   os   使用   for   sp   檔案   

資料採礦演算法(Analysis Services – 資料採礦)data mining algorithm is a set of heuristics and calculations that creates a data mining model from data.” xml:space=”preserve”>“資料採礦演算法”是根據資料建立資料採礦模型的一組試探法和計算。 為了建立模型,演算法將首先分析您提供的資料,並尋找特定類型的模式和趨勢。 演算法使用此分析的結果來定義用於建立採礦模型的最佳參數。 然後,這些參數應用於整個資料集,以便提取可行模式和詳細統計資訊。

演算法根據您的資料建立的採礦模型可以採用多種形式,這包括:

  • 說明資料集中的案例如何相關的一組分類。
  • 預測結果並描述不同條件是如何影響該結果的決策樹。
  • 預測銷量的數學模型。
  • 說明在事務中如何將產品分組到一起的一組規則,以及一起購買產品的機率。

Microsoft SQL Server Analysis Services 提供了多種在資料採礦解決方案中使用的演算法。 這些演算法是在資料採礦中使用的一些最流行方法的實現方式。 通過使用提供的 API 或者使用 SQL Server Integration Services 中的資料採礦組件,所有 Microsoft 資料採礦演算法都是可以自訂且完全可程式化的。

您還可以使用符合 OLE DB for Data Mining 規範的第三方演算法,或者開發可註冊為服務、然後在 SQL Server 資料採礦架構中使用的自訂演算法。

 

為特定的分析任務選擇最佳演算法很有挑戰性。 您可以使用不同的演算法來執行同樣的業務任務,每個演算法會產生不同的結果,而某些演算法還會產生多種類型的結果。 例如,您不僅可以將 Microsoft 決策數演算法用於預測,而且還可以將它用作一種減少資料集的列數的方法,因為決策樹能夠識別出不影響最終採礦模型的列。

按類型選擇演算法

 

Analysis Services 包括了以下演算法類型:

  • Classification algorithms predict one or more discrete variables, based on the other attributes in the dataset. ” xml:space=”preserve”>分類演算法基於資料集中的其他屬性預測一個或多個離散變數。
  • Regression algorithms predict one or more continuous variables, such as profit or loss, based on other attributes in the dataset.” xml:space=”preserve”>迴歸演算法基於資料集中的其他屬性預測一個或多個連續變數,如利潤或虧損。
  • Segmentation algorithms divide data into groups, or clusters, of items that have similar properties.” xml:space=”preserve”>分割演算法將資料劃分為組或分類,這些組或分類的項具有相似屬性。
  • Association algorithms find correlations between different attributes in a dataset.” xml:space=”preserve”>關聯演算法尋找資料集中的不同屬性之間的相關性。 這類演算法最常見的應用是建立可用於購物籃分析的關聯規則。
  • Sequence analysis algorithms summarize frequent sequences or episodes in data, such as a Web path flow. ” xml:space=”preserve”>順序分析演算法摘要資料中的常見順序或事件,如 Web 路徑流。

但是,限制為您的解決方案中的一種演算法是沒有必要的。 有經驗的分析人員有時候將使用一種演算法來確定最高效的輸入(即變數),然後應用其他演算法以便基於這些資料預測特定結果。 SQL Server 資料採礦使您可以在單個採礦結構的基礎上產生多個模型,這樣,在單個資料採礦解決方案內,您可以使用群集演算法、決策樹模型和 naïve Bayes 模型來針對您的資料擷取不同視圖。 您還可以在單個解決方案內使用多種演算法來執行單獨的任務:例如,您可以使用迴歸來擷取財務預測,並且使用神經網路演算法執行銷售影響因素分析。

按任務選擇演算法

為協助您選擇用於特定任務的演算法,下表給出了每種演算法在傳統上用於的任務類型的建議。

 
任務樣本 可使用的 Microsoft 演算法
預測離散屬性

 

  • 將預期購買者列表中的客戶標記為好或差的潛在客戶。
  • 計算服務器在未來 6 個月內將出現故障的機率。
  • 將患者結果分類並探討相關因素。

 

決策樹演算法

 

Naive Bayes 演算法

群集演算法

神經網路演算法

預測連續屬性

 

  • 預測下一年的銷售額。
  • 根據過去的曆史資訊和季節趨勢,預測網站訪問者。
  • 根據人口統計資訊產生風險評分。
決策樹演算法

 

時序演算法

線性迴歸演算法

預測順序

 

  • 執行公司網站的點擊串流分析。
  • 分析導致伺服器故障的因素。
  • 捕獲和分析門診訪問期間活動的順序,以便圍繞一般的活動形成最佳做法。
順序分析和群集演算法
尋找事務中常見項的組

 

  • 使用購物籃分析來確定產品擺放。
  • 建議客戶購買其他產品。
  • 分析來自事件訪問者的調查資料,確定哪些活動或展台是相關的,以便計劃將來的活動。
關聯演算法

 

決策樹演算法

尋找相似項的組

 

  • 基於人口統計資訊和行為之類的屬性,建立患者風險設定檔群組。
  • 按照瀏覽和購買模式分析使用者。
  • 標識具有相似使用特性的伺服器。
群集演算法

 

順序分析和群集演算法

演算法的明細,大家可以參考後續的文章,或者在MSDN的技術文檔中心進行尋找 來源:MSDN摘自 :http://www.datafew.com/archive/160.html

資料採礦演算法Analysis Services-基於SQL Server的資料採礦

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.