標籤:des http io ar os 使用 for sp 檔案
資料採礦演算法(Analysis Services – 資料採礦)data mining algorithm is a set of heuristics and calculations that creates a data mining model from data.” xml:space=”preserve”>“資料採礦演算法”是根據資料建立資料採礦模型的一組試探法和計算。 為了建立模型,演算法將首先分析您提供的資料,並尋找特定類型的模式和趨勢。 演算法使用此分析的結果來定義用於建立採礦模型的最佳參數。 然後,這些參數應用於整個資料集,以便提取可行模式和詳細統計資訊。
演算法根據您的資料建立的採礦模型可以採用多種形式,這包括:
- 說明資料集中的案例如何相關的一組分類。
- 預測結果並描述不同條件是如何影響該結果的決策樹。
- 預測銷量的數學模型。
- 說明在事務中如何將產品分組到一起的一組規則,以及一起購買產品的機率。
Microsoft SQL Server Analysis Services 提供了多種在資料採礦解決方案中使用的演算法。 這些演算法是在資料採礦中使用的一些最流行方法的實現方式。 通過使用提供的 API 或者使用 SQL Server Integration Services 中的資料採礦組件,所有 Microsoft 資料採礦演算法都是可以自訂且完全可程式化的。
您還可以使用符合 OLE DB for Data Mining 規範的第三方演算法,或者開發可註冊為服務、然後在 SQL Server 資料採礦架構中使用的自訂演算法。
為特定的分析任務選擇最佳演算法很有挑戰性。 您可以使用不同的演算法來執行同樣的業務任務,每個演算法會產生不同的結果,而某些演算法還會產生多種類型的結果。 例如,您不僅可以將 Microsoft 決策數演算法用於預測,而且還可以將它用作一種減少資料集的列數的方法,因為決策樹能夠識別出不影響最終採礦模型的列。
按類型選擇演算法
Analysis Services 包括了以下演算法類型:
- Classification algorithms predict one or more discrete variables, based on the other attributes in the dataset. ” xml:space=”preserve”>分類演算法基於資料集中的其他屬性預測一個或多個離散變數。
- Regression algorithms predict one or more continuous variables, such as profit or loss, based on other attributes in the dataset.” xml:space=”preserve”>迴歸演算法基於資料集中的其他屬性預測一個或多個連續變數,如利潤或虧損。
- Segmentation algorithms divide data into groups, or clusters, of items that have similar properties.” xml:space=”preserve”>分割演算法將資料劃分為組或分類,這些組或分類的項具有相似屬性。
- Association algorithms find correlations between different attributes in a dataset.” xml:space=”preserve”>關聯演算法尋找資料集中的不同屬性之間的相關性。 這類演算法最常見的應用是建立可用於購物籃分析的關聯規則。
- Sequence analysis algorithms summarize frequent sequences or episodes in data, such as a Web path flow. ” xml:space=”preserve”>順序分析演算法摘要資料中的常見順序或事件,如 Web 路徑流。
但是,限制為您的解決方案中的一種演算法是沒有必要的。 有經驗的分析人員有時候將使用一種演算法來確定最高效的輸入(即變數),然後應用其他演算法以便基於這些資料預測特定結果。 SQL Server 資料採礦使您可以在單個採礦結構的基礎上產生多個模型,這樣,在單個資料採礦解決方案內,您可以使用群集演算法、決策樹模型和 naïve Bayes 模型來針對您的資料擷取不同視圖。 您還可以在單個解決方案內使用多種演算法來執行單獨的任務:例如,您可以使用迴歸來擷取財務預測,並且使用神經網路演算法執行銷售影響因素分析。
按任務選擇演算法
為協助您選擇用於特定任務的演算法,下表給出了每種演算法在傳統上用於的任務類型的建議。
任務樣本 |
可使用的 Microsoft 演算法 |
預測離散屬性
- 將預期購買者列表中的客戶標記為好或差的潛在客戶。
- 計算服務器在未來 6 個月內將出現故障的機率。
- 將患者結果分類並探討相關因素。
|
決策樹演算法 Naive Bayes 演算法 群集演算法 神經網路演算法 |
預測連續屬性
- 預測下一年的銷售額。
- 根據過去的曆史資訊和季節趨勢,預測網站訪問者。
- 根據人口統計資訊產生風險評分。
|
決策樹演算法 時序演算法 線性迴歸演算法 |
預測順序
- 執行公司網站的點擊串流分析。
- 分析導致伺服器故障的因素。
- 捕獲和分析門診訪問期間活動的順序,以便圍繞一般的活動形成最佳做法。
|
順序分析和群集演算法 |
尋找事務中常見項的組
- 使用購物籃分析來確定產品擺放。
- 建議客戶購買其他產品。
- 分析來自事件訪問者的調查資料,確定哪些活動或展台是相關的,以便計劃將來的活動。
|
關聯演算法 決策樹演算法 |
尋找相似項的組
- 基於人口統計資訊和行為之類的屬性,建立患者風險設定檔群組。
- 按照瀏覽和購買模式分析使用者。
- 標識具有相似使用特性的伺服器。
|
群集演算法 順序分析和群集演算法 |
演算法的明細,大家可以參考後續的文章,或者在MSDN的技術文檔中心進行尋找 來源:MSDN摘自 :http://www.datafew.com/archive/160.html
資料採礦演算法Analysis Services-基於SQL Server的資料採礦