【SQL Server 2008商務智能BI】資料採礦導論

來源:互聯網
上載者:User

標籤:


資料採礦到底是什麼呢?

顯然資料採礦不是變魔術,資料採礦是 使用複雜的數學演算法,使我們能夠運用電腦強大的計算能力對大量細節資料進行篩查、梳理,找出一些有意義的資訊,探索資料中的模式、相關性和聚類。同時它也讓我們擺脫了手工進行這種數字運算的勞累工作。



那麼我們為什麼又要去瞭解資料採礦呢?

關聯式資料庫系統擅長記錄日常的業務事務,積累了大量的資料。
而多維資料系統通過彙總對資料進行匯總,但由於要按照無數個維度和階層來匯總,所以資料還是會成倍增長。
當這些資料多到無法承受時,只能把資料轉儲到備份磁帶,或者存放到文檔中,然後它們漸漸的也就被遺忘帶了。

但問題是:這些資料是企業生命曆程的記錄。這些資料包含了完整的關於企業過去情況如何的記錄,更重要的是,這些資料提供了一些線索,告訴你企業未來將如何,這些對企業的管理可能會很有協助。

該如何從所有這些資料中得出有意義的資訊?

我們通過資料採礦,在資料之間進行關聯,最初在人們觀察這些資料時,可能不會立即發現這些關聯,但至少關聯使人們能夠更易於理解這些資料,一旦人們對這些資料有了嶄新的理解,就能更有效分析資料、設定方向。
通過進一步的觀察,我們可以預測在這些資料之下還隱藏著什麼。任何對於未知情況的預測,都有得出錯誤結論的分先。然後使用關聯所體現出的模式來進行預測,我們預測正確的可能性就很大。如果我們所掌握的資料越多,那麼我們進行正確預測的可能性就越大。



那麼這是否意味著:只要我們隨意將其中一種複雜的數學演算法運用到我們的資料上,就會得出大量的商務智能BI知識呢?
實際情況並不完全是這樣。

我們需要知道 資料採礦演算法能夠為我們做些什麼事情。

我們也需要知道 為了使用資料採礦技術來獲得商業智慧,我們必須要做哪些工作。也就是我們需要按照一定的步驟來為挖掘過程做資料和演算法方面的準備,我們還需要對挖掘結果進行評價,以便從挖掘出的碎石中找到金子。




資料採礦能夠幫我們完成哪些工作呢?

1、分類

分類用於預測一個離散屬性的值,而離散屬性的值是一組不同值中的一個。

一個簡單的例子就是,我們可能會把客戶分為 信用風險低 和 信用風險高 兩類。如果我們知道該如何對個人、企業或者事物進行分類,那麼當我們處理個人、企業或事物時,就能做出更加明智的決策。

首先,選擇進行何種分類,也就是要選擇 我們想要預測的未來交易情況中的那個屬性值(預測屬性),比如 信用風險。

然後,查看曆史資料,在曆史資料中預測屬性 的值是已知的,比如 淨資產、年營業收入、發票支付曆史。

接下來,我們需要從這些曆史資料中確定,哪些屬性最具有區別性(區別屬性),能夠將具有預測屬性的某個值得客戶,與具有其他值得客戶區分開。

最後,我們使用這些區別屬性來預測在未來交易中預測屬性的值。


2、迴歸

迴歸用於預測一個連續值,而一般的度量就是一個連續值的變數,比如 銷售。

在預測連續值時,迴歸要尋找的是可能會隨著時間推移而延續和重複的趨勢。比如 銷售可能是季節性的,在某個月會出現峰值。在查看曆史資料中的銷售數字時,迴歸演算法會發現這些峰值,並在預測未來年份的銷售時,沿用這種趨勢。

像分類一樣,迴歸也會尋找所要預測的值,與曆史資料中的其他 連續值 之間的關係。比如 油價可能對銷售會有很大的影響(對於SUV車的銷售商來說就是這樣),在預測每個月的銷量時,迴歸演算法可以把月初的油價作為一個因素納入到預測之中。


3、細分

細分是一種分而治之的資料分析方法。

細分將資料分到幾個有相似特徵的組中,然後可以對每一組的特徵進行更深入的分析。因為在查看公司的分組時,能夠從中洞悉一些在單獨查看一家公司時,並不顯而易見的東西。

比如 一家公司按照客戶的僱員人數來分組,一組可能是超過1000人的公司,一組可能是在500-999之間的公司,以此類推。然後就可以查看每個分組,看每個分組中的客戶所創造的收入、有何種類型的需要、花在管理上的時間有多少 等諸如此類的因素。


4、分組

分組就是在資料中先進行一些類型的分組。

關聯演算法會檢查在曆史資料中找到的分組,以便從中找到分組成員之間的模式。比如 在非常多的分組中,條目A、B、C都一起出現,根據發現的這宗模式,就可以對未來分組的構成做出預測,也就是如果A、B都在一個組,那麼C也會被加入進來的可能性非常大,而我們最熟悉的 購買建議就是由關聯產生的(買了yy書的人也買了xx書。。。)。


5、序列分析

序列分析用於檢查一條線路的經停順序。

首先,演算法會處理過去線路的資料。

然後,演算法就可以預測未來的線路了。給出一個當前的經停,演算法就能確定按照所給路線前進的可能性。

序列分析經常用於網站的導航,比如 使用者A在頁面A商,他很可能然後就去瀏覽頁面B,而去瀏覽頁面C的可能性就比較小。

序列分析哈可以應用到其他類型的按照順序發生的事件商。客戶可能會按照特定的順序來購買產品、使用服務,我們可以分析資料,從而確定客戶下一步可能購買的產品,或者是感興趣的服務。



資料採礦的步驟是哪些呢?

1、問題定義

2、資料準備

3、訓練

4、驗證



最後,但正如前面說的,資料採礦不是魔術。它預測事件並非是因為能夠看到未來。相反,它只是用數學的方法,來分析在曆史資料中都發生了哪些事情,從而確定如果當前的趨勢繼續下去,那麼最可能發生什麼樣的情況。

然後,總是存在某些外在因素導致當前趨勢不能繼續下去的情況。儘管所有的其他人都遵循當前的趨勢,但我們正努力分析的使用者、買家或者潛在客戶可能正是那個不遵循當前趨勢的特例。

所以,有了資料採礦,我們至少可以確定,在一定的信賴度下,當前的趨勢是什麼。然後我們可以依據這些趨勢來進行明智的決策。試想一下,如果沒有資料採礦,我們就不瞭解 趨勢 和 關聯如何,那麼就只能通過直覺來進行經營了。


【SQL Server 2008商務智能BI】資料採礦導論

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.