假如你有一個購物類的網站,那麼你如何給你的客戶來推薦產品呢?這個功能在很多電商類網站都有,那麼,通過SQL Server Analysis Services的資料採礦功能,你也可以輕鬆的來構建類似的功能。
此篇獨立於前三篇,主要介紹如何通過Excel的資料採礦來獨立的實現商品推薦功能,將通過微軟提供的樣本資料來進行示範。
Excel是大家再熟悉不過的工具,它是微軟Office裡的組件之一。在baidu百科中你可以找到如下的描述:
Excel 是微軟辦公套裝軟體的一個重要的組成部分,它可以進行各種資料的處理、統計分析和輔助決策操作,廣泛地應用於管理、統計財經、金融等眾多領域。
資料處理,統計分析是我們經常用Excel來做的事,而輔助決策對應商業智慧中的最高的一個層次,也就是微軟提供的Excel資料採礦功能。
在Excel中進行資料採礦,需要安裝一個外掛程式:SQL Server Data Mining Tools Add-ins for Office。
下載SQL Server Data Mining Tools Add-ins for Office的頁面:
http://www.microsoft.com/en-us/download/details.aspx?id=29061
本文中使用的版本是SQL Server 2012和Office 2010,這個下載連結對應的就是這個版本。
下載時需要留意下語言的版本,要跟機器上安裝的Office版本相對應,還有需要留意你所安裝的是32位的還是64位的,都有對應的版本。
對於以前的office 2007版本,有對應的2005,2008和2008 R2的SQL Server版本與之對應,這些版本都可以從那個下載頁面的底端找到。
下載安裝完成後,首先找到工具給的樣本資料來看一下Excel下的資料採礦都能給我們提供哪些功能。
如果你安裝了Windows 8,那麼進入到開始介面,然後敲Excel進入到應用搜尋,通常第二個結果就是。
開啟Excel的過程中,可能會彈出這個介面:
這裡選擇第二項,不要在意裡面的2008版本資訊。
點擊後會彈出另外一個工具:
點擊下一步:
指定好一個分析服務執行個體,點擊下一步:
這裡會有一個提示,從提示中我們可以看到,Excel的這個Add-ins會在分析服務庫中建立臨時的採礦模型,而且這個模型會在使用者關閉串連之後自動刪除。
點擊下一步:
這裡會讓我們指定是建立一個新庫還是用一個已經存在的庫,這裡預設選擇建立新庫。點擊下一步:
這裡需要為使用者指定許可權。此篇示範按照預設設定就可以,點擊Finish。
工具會自動建立分析服務資料庫和相應的使用者權限。完成後點擊Close關閉工具。
以上,Excel Data Mining Add-ins的配置就完成了。
轉到剛才開啟的樣本Excel,可以看到樣本中提供的資料採礦樣本資料:
這裡直接選擇最後一個Associate and Shopping Basket。關聯規則和購物籃。
然後會跳轉到Associate標籤裡面的樣本資料。這個工具就是根據樣本資料,利用關聯規則模型的演算法,來發現裡面的購買規律。
其中Order Number是訂單編號,往後依次是產品分類,產品名稱和產品價格。
留意一下安裝了Data Mining Add-ins for Office之後的Excel的Ribbon工具列:
多了一項Table Tools,這裡我們要用到裡面的Shopping Basket Analysis。
首先留意一下右邊的Connection工具,Excel的這個資料採礦外掛程式是需要SQL Server Analysis Services支援的,點擊它串連一個分析服務。
點擊New建立串連。
添寫要串連到的分析服務,Catalog name直接選default就可以。Test Connection沒問題後點OK完成設定。
然後點擊Shopping Basket Analysis按鈕。
接下來會彈出的工具,需要根據模型演算法的特點指定一些列的資訊。
Transation ID直接對應訂單識別碼Order Number,Item在示範中為了降低項的個數這裡直接選擇Category,Item Value選擇Product Price產品價格。
直接點擊Run開始處理資料:
處理完畢後,會自動產生兩個標籤頁記錄模型分析的結果:
在第一個標籤頁中,會給我們一些銷售捆綁建議。
結果是按照最後一列的捆綁總銷售額,挖掘結果根據這一列進行了排序。前面幾列對應的資訊分別是綁定包的大小,比如一個咖啡和伴侶,那麼這個包的大小就是2,第二列跟支援度差不多,也就是在樣本資料中,有多少是使用者是同時買了這幾樣產品的,後面一列是這個捆綁包的總價是多少。
比如第一行,Road Bikesh和Helmets這個捆綁建議,它的包大小是2,在樣本資料,也就是曆史資料中,有805個訂單裡同時包括這兩樣產品,這個捆綁包的價格是1570.228025,樣本資料中這樣的產品在一起一共賣了1264033.56。
通過這個報告,我們就可以知道哪些捆綁商品值得建立。
在另外一個標籤頁中,可以看到商品推薦建議資訊:
這裡會列出最值得推薦的幾個組合建議,後兩列資訊跟前一個報告一樣。前兩列資訊依次是給定的一個商品和根據這個給定產品最值得推薦的產品。
往後列依次是,有多少個訂單包含了給定的產品,接下來一列是在包含給定產品的訂單中,有多少又同時包含了推薦的產品。後面的百分比就是這個比例。
以上報告中提供的統計資訊都是我們在做銷售捆綁決策時很重要的參考資訊,而不同人做的決策肯定會有所差別。
比如,一個保守點的老闆覺得Helmets跟Tires and Tubes這樣的組合很多,而且Helmets購買量也足夠大,為了讓不太好賣的產品更好賣些,比如Bike Racks賣的很少,但明顯Tires and Tubes賣的比較多,那麼我就可以推行Bike Racks和Tires and Tubes這樣的搭配方案來促進銷售。
而另外一個老闆可能認為目前的銷售應該趁熱打鐵,什麼好賣賣什麼,於是肯定會大力推行Helmets和Tires and Tubes這樣的搭配方案,因為Helmets已經賣得夠好了,那麼更希望能帶動Tires and Tubes的銷量。
總之,根據不同的銷售策略和特點,根據這些統計資訊可以為使用者提供不同的決策資料依據。
在處理資料的過程中,可能會出現如下的錯誤提示:
出現這個錯誤主要是由於串連分析服務失敗,檢查下分析服務的角色設定就可以。
總結:
此篇根據微軟提供的樣本資料,通過Excel實現購物籃預測功能,結果為Excel裡的兩篇報告。通過此篇,相信大家應該對這個挖掘工具需要什麼樣的樣本資料已經有了大體的瞭解。後續的文章,我會進行一個實際操作過程來示範如何在我們的實際業務中,組織資料來進行類似的預測性分析。