著作權說明:內容來自互連網及書籍
一、主成分分析PCA
1. 基本思想
主成分分析是一類常用的針對連續變數的降維方法,選取能夠最大化解釋資料變異的成分,將資料從高維降到低維,同時保證各個維度之間正交。
主成分分析的具體方法是對變數的共變數矩陣或相關係數矩陣求取特徵值和特徵向量,經證明,對應最大特徵值的特徵向量,其方向正是共變數矩陣變異最大的方向,依次類推,第二大特徵值對應的特徵向量,是與第一個特徵向量正交且能最大程度解釋資料剩餘變異的方向,而每個特徵值則能夠衡量各方向上變異的程度。因此,進行主成分分析時,選取最大的幾個特徵值對應的特徵向量,並將資料對應在這幾個特徵向量組成的參考系中,達到降維的目的(選擇的特徵向量數量低於未經處理資料的維數)。
當分析中所選的變數具有不同的量綱,且差別比較大的情況下,應選擇相關係數矩陣進行主成分分析。
主成分分析適用於變數之間具有相關關係,變數在三維空間中呈現橢球形分布。多變數之間有顯著的強線性相關,表明主成分分析是有意義的。
2.主成分的計算公式
3.散佈圖解
未經處理資料可以使用原座標系中的向量來表示,共變數矩陣的特徵向量為A和B,由於A方向的變異遠大於B方向,因此,將所有點映射到A上,並使用A作為參考系來᧿述資料,這樣忽略了資料在B方向上的變異,但卻將二維的資料降低到了一維。
4. 主成分分析的步驟
5. 選擇主成分個數 主成分分析的目的是簡化變數,一遍保留的主成分應該小於原始變數的個數。根據主成分分析的目的,個數選取的方法是有區別的。 具體保留幾個主成分,應該遵循兩個原則(兩個原則同時使用,可只考慮一個): 1. 單個主成分解釋的變異不應該小於1(特徵根值布小於1) 2. 選取的主成分的累計變異應該達到80% ~ 90%(累計特徵根值佔總特徵根值80%以上)
6. 應用情境 主成分法的應用大致分為三個方面: 1、對資料做綜合打分; 2、 降維以便對資料進行描述;3、為聚類或迴歸等分析提供變數壓縮。在應用時要能夠判斷主成分法的適用性,能夠根據需求選取合適的主成分數量。
二、因子分析 1. 基本思想
主成分分析時一般情況下不能對主成分所代表含義進行業務上的解讀,因為主成分方向上一般不會恰好某些變數權重大,而另外一些變數權重都小,這也表現在主成分權重的形成的散佈圖會偏離座標軸。 如果可以將主成分的座標軸進行旋轉,使一些變數的權重的絕對值在一個主成分上達到最大,而在其他主成分上絕對值最小,這樣就達到了變數分類的目的。對應地,這種維度分析方法被稱為因子分析。 因子分析是一類常用的連續變數降維並進行維度分析的方法,其經常採用主成分法作為其因子載荷矩陣的估計方法,在特徵向量方向上,使用特徵值的平方根進行加權,最後通過因子旋轉,使得變數的權重在不同因子上更加兩極分化。常用最大方差法進行因子旋轉,這種方法是一種正交旋轉。
2. 正交旋轉因子模型
3. 因子分析的一般步驟
4. 因子載荷矩陣的估計 一般使用主成分分析方法。選擇合適的因子數量,這一步需要主成分分析的結果,因子個數的確定標準比主成分分析寬,比如,特徵根大於0.7就可以考慮保留。
5. 因子旋轉 旋轉的目的是使因子負荷兩級分化,要麼接近0,要麼接近-1或1,這樣易於對因子做出解釋。 分為:正交旋轉和斜交旋轉。 正交旋轉,因子間的資訊不會重疊。最常用的是最大方差旋轉,是一種正交旋轉,目的是使載荷平方的方差最大化。
6. 因子分析的應用 因子分析通主成分分析類似,適用於變數之間存在較強的線性關係的情況,能夠綜合出幾項反映變數共同特別的指標。最簡單的方法就是計算變數的相關係數矩陣,要是大部分相關係數值小於0.3,就不適用因子分析。還有一些檢驗方法,如巴特利特球形檢驗,KMO檢驗等。 因子分析作為維度分析的手段,是構造合理的聚類模型和穩健的分類模型的必然步驟,用於降低解釋變數共線性帶來的模型不穩定性。
三、群集 群集是一種分類的多元統計分析方法。按照個體或樣品的特徵將它們分類,使同一類別內的個體具有儘可能高的同質性(homogeneity),而類別之間則應具有儘可能高的異質性。
1.群集的基本邏輯
群集的基本邏輯是計算觀測值之間的距離或者相似性。距離較小、相似性較高,按照相似性進行分組。
具體可以分為三個步驟:
1. 從N個觀測和K個熟悉資料開始;
2. 計算N個觀測兩兩之間的距離;
3. 將距離近的觀測聚為一類,將距離遠的分為不同的類,最終達到組間的距離最大化,組內的距離最小化。
2.群集的方法種類
系統聚類法(層次聚類):該方法可以得到較理想的分類,但是難以處理大量樣本。
K-means聚類(非層次聚類、快速聚類):可以處理大量樣本,但是不能提供類相似性資訊,不能互動的決定聚類個數。 兩步法聚類(先使用K-means聚類,後使用層次聚類)
3. 系統聚類
系統聚類,也就是層次聚類,指的是形成類相似性層次圖譜,便於直觀的確定類之間的劃分。 其基本思想在於令 n 個樣本自成一類,計算其兩兩之間的相似性,此時類間距離與樣本間距離是等價的。把測度最小的兩個類合并, 然後按照某種聚類方法計算類間的距離,再按最小距離準則並類。這樣每次減少一類,持續下去, 直到所有樣本都歸為一類為止。 該方法可以得到較理想的分類,但是難以處理大量樣本。
1. 基本步驟
(1)對資料進行變換處理;(不是必須的,當數量級相差很大或指標變數具有不同單位時是必要的)
(2)構造n個類,每個類只包含一個樣本;
(3)計算n個樣本兩兩間的距離;
(4)合并距離最近的兩類為一新類;
(5)計算新類與當前各類的距離,若類的個數等於1,轉到6;否則回4;
(6)畫聚類圖;
(7)決定類的個數,從而得出分類結果。
2. 資料預先處理
不同要素的資料往往具有不同的單位和量綱,其數值的變異可能是很大的,這就會對分類結果產生影響,因此當分類要素的對象確定之後,在進行群集之前,首先要對連續變數進行處理。
在群集中,常用的聚類要素的資料處理方法有如下幾種:
①Z soroes標準化
②標準差標準化
③正態標準化
經過這種標準化所得的新資料,各要素的極大值為1,極小值為0,其餘的數值均在0與1之間。
為了得到合理的聚類結果,不但要對資料進行標準化,還要對變數進行維度分析。一般採用因子分析進行維度分析,根據樣本的特徵選取因子轉換的方法,對觀測資料進行處理,並在儲存的因子結果上進行群集。
如果變數呈偏態分布,可以對資料進行函數變換來克服偏態性,如對數變換。 3.觀測點間距離的計算
在聚類時的一個重要問題是定義樣本距離,一般使用歐式距離或閔可夫斯基距離,閔可夫斯基距離公式如下:
4. 觀測類間聚類的計算 另一個重要為題是定義兩個類之間的距離,方法包括平均聯結法、重心法和 Ward 最小方差法。
(1)平均串連法又稱全串連法,即將一類的所有觀測值與另一類的所有觀測值分別做兩兩之間的距離,求所有距離的平均值作為類間距離:
(2)重心法計算的是觀測類各自重心之間的距離:
(3)Ward 最小方差法: 基於方差分析的思想,如果分類合理,則同類樣本間離差平方和應當較小,類與類間離差平方和應當較大。 Ward 最小方差法並類時, 總是使並類導致的類內離差平方和增量最小。因此,該方法很少受到異常值的影響,在實際應用中的分類效果較好,適用範圍廣。但該方法要求樣品間的距離必須是歐氏距離。
4. K-means聚類 K-means 聚類是一種快速聚類法,適合應用於大樣本量的資料。其方法可以總結為: 首先隨機播放 K 個點作為中心點,所有樣本與這 K 個中心點計算距離,距離最近的樣本被歸為與中心點同類的點,然後重新計算每個類的中心,再次計算每個樣本與類中心的距離,並按照最短距離原則重新劃分類,如此迭代直至類不再變化為止。
1. 基本步驟 (1)設定K值,確定聚類數(軟體隨機分配聚類中心所需的種子)。
(2)計算每個記錄到類中心的距離(歐式聚類),並分成K類。
(3)然後把K類中心(均值)作為新的中心,重新計算距離。
(4)迭代到收斂標準停止。
2. 優缺點 該方法的優點是計算速度快,可用於樣本量較大的資料,缺點是需要人為設定聚類的數量 K,同時其初始點的不同選擇可能會形成不同的聚類結果,因此常常使用多次選擇初始中心點,並對最終的多個聚類結果取平均的方法來構建穩定的模型。
3. 應用執行個體 發現異常值:如刷信用層級的違規者的行為會與正常消費行為在消費頻次、平均消費金額等方面差異比較大,對其進行定位相當於發現異常點,因此要求對變數的轉換不能改變其原有分布形態。常用的標準化方法如中心標準化、極差標準化不會改變分布形態,而且在聚類前往往需要使用標準化來消除變數的量綱。
四、對應分析 對應分析是一種資料分析技術,它能夠協助我們研究由定性變數構成的互動匯總表來揭示變數間的聯絡。互動表的資訊以圖形的方式展示。主要適用於有多個類別的定類變數,可以揭示同一個變數的各個類別之間的差異,以及不同變數各個類別之間的對應關係。 適用於兩個或多個定類變數。
1. 類型 簡單對應分析:對兩個分類變數進行的對應分析 多重對應分析:對多個分類變數進行的對應分析(最優尺度)
連續型變數的分析和分類變數的分析,連續型變數可以先分箱後再進行對應分析。 2. 對應分析和列聯表分析的關係 在對兩個分類變數進行分析時,列聯表是常用的方式,但如果變數分類水平較多,往往很難直觀地發現分類水平之間的相互聯絡,為此會使用對應分析方法來處理這個問題。
對應分析是用於尋求列聯表的行和列之間的關係的一種低維圖形標記法,它可以從直覺上揭示同一分類變數的各個類別之間的差異,以及不同分類變數各個類別之間的對應關係。 在對應分析中,列聯表的每一行對應(通常是二維)圖中的一點,每一列也對應同一圖中的一點。本質上,這些點都是列聯表的各行各列向一個二維歐式空間的投影,這種投影最大限度的保持了各行或各列之間的關係。 3. 對應分析和列聯表分析的關係 對應分析是在主成分法基礎上發展起來的一種技術,其通過對列聯表進行轉換,使得行與列各自的特徵值分別相等,分別對行與列進行主成分分解時,可以使得各自的共變數矩陣的特徵值相等,使用特徵值的平方根對主成分方向的資料進行加權,保證了行與列可以在同一尺度下進行比較。
4.對應圖的解讀方法 1-總體觀察:
2-觀察鄰近地區
3-向量分析——偏好排序
4-向量的夾角——餘弦定理
5-從距離中的位置看
6-座標軸定義和象限分析
7-產品定位:理想點與反理想點模型
8-市場細分和定位
http://shenhaolaoshi.blog.sohu.com/133694659.html
5.優缺點 簡單對應分析的優點:
定性變數劃分的類別越多,這種方法的優勢越明顯。 揭示行變數類別間與列變數類別間的聯絡。 將類別聯絡直觀地表現在二維圖形中(對應圖)。 可以將名義變數或次序變數轉變為間距變數。
簡單對應分析的缺點: 不能用於相關關係的假設檢驗。 維度要由研究者決定。 有時候對應圖解釋比較困難。 對極端值比較敏感。
五、多維尺度分析 多維尺度分析(MDS),是基於研究對象之間的相似性或距離,將研究對象在一個低維(二維或三維)的空間形象地表示出來,進行聚類或維度分析的一種圖示法。通過多維尺度分析所呈現的空間定位元影像,能簡單明了地說明各研究對象之間的相對關係。
1.相似性或距離測量
多維尺度分析用于衡量樣本間相異性(距離)或相似性程度。由於變數類型的不同,樣本間的距離或相似性往往也需要採用不同的方法來衡量,比如閔可夫斯基距離、卡方距離、餘弦相似性等等,應當熟知距離/相似性測量的原理和適用性, 並正確使用。
2、多維尺度分析原理
3、多維尺度分析的應用
在市場研究領域主要研究消費者的態度,衡量消費者的知覺及偏好。涉及的研究對象非常廣泛,例如:汽車、洗頭水、飲料、快餐食品、香煙和國家、企業品牌、政黨候選人等。通過MDS分析能夠為市場研究提供有關消費者的知覺和偏好資訊在市場研究領域主要研究消費者的態度,衡量消費者的知覺及偏好。
在需要比較樣本間相異性或相似性的場合下,可以使用多維尺度分析,例如比較不同品牌/產品間相似性,用以尋找潛在的競爭者。最終的結果往往是在二維感知圖上來展示。
4、多維尺度分析與對應分析的區別 多維尺度分析描述的是行變數之間的關係,對應分析是描述行變數和列變數之間的關係。
六、預測性資料分析方法
1. 簡單線性迴歸 2. 多元線性迴歸 1.多元迴歸方程
2. 線性迴歸的五個假設 線性迴歸的重點與痛點在於模型調優,整個最佳化過程可以看做是在將模型逐步調整到符合線性迴歸五個經典假設的過程,因為模型越符合其前ᨀ假設,則預測結果越可靠。線性迴歸的五個假設為:
● 假設一: 解釋變數和被解釋變數之間存線上性關係;(違反,則模型預測能力差)
● 假設二:解釋變數和擾動項不能相關;(違反則迴歸係數估計有偏)
● 假設三:解釋變數之間不能強線性相關(膨脹係數);(違法則迴歸係數的標準誤差被放大)
● 假設四:擾動項獨立同分布(異方差檢驗、 DW 檢驗);(違反則擾動項的標準誤差估計不準,T檢驗失效)
● 假設五:擾動項服從常態分佈( QQ 檢驗)。(違反則T檢驗失效)
3. 模型變數的選擇 模型變數選擇的方法主要有:向前迴歸法、向後迴歸法、逐步迴歸法
4.線性迴歸分析的步驟
( 1) 要對資料做基本的分析,分析的是潛在的解釋變數和被解釋變數之間可能存在的基本關係;
( 2) 可以根據初步分析的結果構建候選模型;
( 3) 對候選模型進行有效性假設檢驗;
( 4)對模型的共線性和影響點進行檢測,修正模型可能存在的偏差;
( 5)根據檢測的結果對模型進行修正;
( 6)對修正後的模型重新進行必要的有效性假設檢驗、 共線性和影響點檢測, 直到模型不再需要進一步修正為止;
( 7) 對修正後的模型進行預測檢驗。 建立有效建模迴圈才能保證模型的正確性、有效性和精確性。
5. 殘差假設的檢查 殘差需要滿足獨立同分布和常態分佈兩個假設。 可以通過檢查殘差散佈圖和殘差圖對殘差的線性迴歸假設進行檢查。殘差散佈圖主要看殘差是否和某個解釋變數存在曲線關係,以及殘差的離散程度是否和某個解釋變數有關。殘差圖主要是看殘差是否有離群值。 (1)殘差與自變數散佈圖呈拋物線。說明解釋變數X和被解釋變數Y存在高階非線性關係。修正的方法是在模型中加絨解釋變數X的高階形式,如X2 (2)殘差分布呈異方差。修正的方法最簡單的是對Y取對數。 (3)殘差呈自相關。修正的方法較簡單的是加入被解釋變數Y的一階滯後項進行迴歸。使用DW檢驗確認殘差的自相關關係。
由於無法觀察到誤差項 u t,只能通過殘差項 e t來判斷 u t 的行為。如果 u t或 e t呈出下圖(a) -(d) 形式,則表示u t 存在自相關,如果 ut 或et 呈現圖中 (e) 形式,則 表示 u t不存在自相關。
DW=2 不相關;DW=0,擾動完全負相關;DW=4,擾動完全正相關。
殘差是否常態分佈可以觀察QQ圖分布。 6.離群值 離群值可能會導致擬合曲線產生偏差。一般使用統計量來識別可能的離群值。
統計量:學生化殘差、RSTUDENT殘差、COOK‘s D、DFBETAS、DFFITS
處理離群值:重新檢查資料,確認資料的有效性。如果有效,要分析包含和刪除離群值的結果。為了更好的擬合資料,可能需要在模型中進入高階項。
7. 共線性 識別變數共線性工具:方差膨脹值、共線性分析(特徵值和條件指數)、無截距的共線性分析
方差膨脹值VI大於10,強線性相關
3.羅吉斯迴歸 當反應變數是分類變數時,構造模型需要用到羅吉斯迴歸。
1. 分類變數的相關性檢驗
分類變數之間的相關性一般可以採用列聯表分析或卡方檢驗的方法。 1. 列聯表 列聯表是兩個分類變數的分類水平之間形成的交叉頻數表,通過計算行百分比或列百分比,對實際頻率和期望頻率進行對比分析。
2,.卡方檢驗 卡方檢驗可用於兩分類變數相關性的檢驗,卡方統計量如下:
可以看到統計量᧿述的實際上是觀察頻數與期望頻數之間的差值。
2.羅吉斯迴歸方程
3. 評判模型表現優劣的方法 (1)一致性分析:計算一 致的對數,不一致的對數、相等的對數來評估模型是否很好的預測了自身的資料。C值越大模型表現力越好。 (2)混淆矩陣的解讀和通過 ROC 曲線評判模型的方法。
通過混淆矩陣,能夠確定預測模型的靈敏度和特異度。靈敏度指的是模型“擊中”的機率,而特異度指的是模型“正確否定”的機率。公式為靈敏度=A/(A+B);特異度=D/(C+D)。
ROC 曲線是基於靈敏度和特異度畫出的曲線。ROC 曲線下面積指的是 ROC 曲線和底線、右線圍成的面積。由於靈敏度和特異度的取值範圍都在[0,1]之間, ROC 曲線下面積值越接近1,表明模型預測能力越強。
七 、時間序列 時間序列:系統中某一變數或指標的數值或統計觀測值,按時間順序排列成一個數值序列,就稱為時間序列(Time Series) ,又稱動態資料。
1. 趨勢分解法 1. 時間序列變化形式
時間序列主要考慮的因素是:
長期趨勢(Long-term trend) 時間序列可能相當穩定或隨時間呈現某種趨勢。 時間序列趨勢一般為線性(linear),二次方程式的 (quadratic)或指數函數(exponential function)。 季節性變動(Seasonal variation) 按時間變動,呈現重複性行為的序列。 季節性變動通常和日期或氣候有關。 季節性變動通常和年周期有關。 周期性變動(Cyclical variation) 相對於季節性變動,時間序列可能經曆“周期性變動”。 周期性變動通常是因為經濟變動。 隨機影響(Random effects)
如圖所示,黑色的曲線代表時間序列的原始取值, 而根據原始序列的時間走勢就能確定該時間序列的長期趨勢變動。 而很多行業都是存在季節性變動的趨勢的。比如, 運輸行業、風力發電行業。又比如, 水果和蔬菜價格等。 而迴圈趨勢也成為周期趨勢。比如經濟周期趨勢。相對而言, 迴圈和季節性趨勢是原始序列中較為穩健的趨勢變動。 而無規則的隨機趨勢是難以進行預測的,且波動較大。因此, 對於時間序列的拆分,通常是將較為穩健的長期迴圈以及季節性趨勢拆分出來,而不考慮隨機趨勢的影響。
2. 時間序列模型
2. 時間序列分析預測法的分類
平滑預測法
包括移動平均法和指數平滑法兩種,其具體是把時間序列作為隨機變數,運用算術平均和加權平均的方法做未來趨勢的預測。這樣得到的趨勢線比實際資料點的連線要平滑一些,故稱平滑預測法。
趨勢外推預測法
根據預測對象曆史發展的統計資料,擬合成預先指定的某種時間函數,並用它來描述預測目標的發展趨勢。
平穩時間序列預測法
由於平穩時間序列的隨機特徵不隨時間變化,所以可利用過去的資料估計該時間序列模型的參數,從而可以預測未來。
3. 平穩時間序列 ARMA 模型