標籤:目的 dia 特質 發展 迴歸分析 權重 user ret sys
信用評級模型執行個體分析(以消費金融為例)-中原創 2016-10-13 單良 亞聯大資料點擊“亞聯大資料”可關注我們!
第五章 自變數的初步分析與處理
模型變數有兩種類型,分別是連續型變數 。連續型變數系指該變數為觀察資料所得的實際數值,並沒有經過群組處理 。間斷型變數則系指質性變數或類型變數 。
兩種變數類型都適用於評分模型,但建議變數使用間斷型態進行開發評分模型,主要原因如下:
1. 間斷型變數有助於處理極端值或是樣本數量較少的變數。
2. 非線性因變數 (dependencies) 可應用於線性模型(linear model)。
3. 間斷型變數可協助模型開發人員瞭解各變數與目標事件的趨勢關係。
4. 開發單位可預Crowdsourced Security Testing悉發生目標事件的開發樣本,其概略的行為特質。
1
細緻分類 (Fine Classing)
長變數列表完成後,會接續進行細緻分類 (Fine Classing),將連續型變數概略區分成幾個區間,以利進行單變數分析;
細緻分類一般做法會將變數依樣本比例均分 (equal population) 的方式區分為10至20個區間;
觀察變數與目標事件的對應趨勢 (logical trend) 和實際業務經驗是否相符,如果趨勢與認知不相符,即表示該變數不適合用於開發模型,爾後,再配合單變數分析結果進行變數篩選。
範例
範例一:近1個月的額度使用率
根據一般信用卡業務經驗,當客戶的額度使用率愈大,未來發生違約的機率愈高,對照近1個月額度使用率分群與違約率的趨勢圖可以發現。
範例二:與銀行往來期間
一般信用卡業務經驗告訴我們,客戶與銀行往來期間愈久,未來發生違約的機率會愈低,對照與銀行往來期間分群與違約率的趨勢圖發現,開發樣本的「與銀行往來期間」,與違約率之間沒有任何顯著的趨勢,與業務經驗也不一致,表示「與銀行往來期間」並不適合用於開發信用評等模型。
2
單變數分析 (Single Factor Analysis)
長變數列表上列舉各式各樣的變數,開發單位待變數進行細緻分群,比較業務經驗與趨勢,淘汰不一致的變數後,後續針對變數進行單變數分析;
利用分析資料觀察變數在不同期間的穩定程度,及對目標事件的預測能力大小;
最常使用的指標為母體穩定度指標 (Population Stability Index;PSI) 與訊息價值 (Value of Information;VOI)。
3
母體穩定度指標(Population Stability Index;PSI)
母體穩定度指標主要目的是瞭解不同時間點的樣本形貌是否有所改變,可用來評估整體模型的評分概況,或個別變數的變動情況公式:
一般而言,當PSI小於0.1即表示不同時點下,變數的分群樣本百分比並無顯著的變動,穩定度甚佳,可用來開發模型;
透過表5-3可以得知,近1個月額度使用率隨著時間有逐漸減少的趨勢,但是PSI僅0.0327,變動幅度並不大,可供開發單位之後建構評分模型。
4
訊息價值 (Value of Information;VOI)
訊息價值可以協助模型開發人員瞭解,各變數對於目標事件的單一預測能力高低,藉以挑選出高預測能力的變數進行開發。公式:
訊息價值的判斷標準 :
20個分群的訊息價值加總發現,「近1個月的額度使用率」的VOI為2.09,表示該變數對樣本未來12個月是否發生違約具有強烈的預測能力,模型開發人員可用來開發模型。
5
相關係數 (Correlation Coefficient)
當評分模型變數間的相關性過高,會產生共線性 (collinearity) 的問題,導致使模型的預測能力下降,甚至出現與預測結果相反無法解釋的現象。為避免變數間的高度相關削弱模型預測能力,開發人員會計算各變數間的相關係數:
相關係數與相關程度 :
一般相關係數高低與對應的相關程度標準整理於表5-6,對於開發評分模型而言,如果相關係數超過0.7,表示變數間的相關程度太高,必須進行篩選以免降低模型的預測能力。
6
變數篩選 (Variables Selection)
長變數列表 (Long List) 搜集了所有模型開發前,資料庫中所能產出的變數,數量繁多且並非每一個變數都可用於開發模型。
藉由每一個變數的PSI、VOI與相關係數,綜合考慮穩定性、預測能力、變數間相關程度以及業務認知後,進行變數的篩選。
一般而言,當變數的PSI 小於 0.1且VOI 大於0.1,即表示該變數在不同的期間下具有相當的穩定度,對目標事件亦有顯著的預測能力,因此會先保留該變數至短變數列表 (Short List)。
當保留變數間的相關係數大於0.7時,就會根據業務經驗挑選較為適合預測目標事件的變數進行後續的開發步驟。
7
粗略分類 (Coarse Classing)
粗略分類有下列幾項原則:
1、變數上升或下降的趨勢需與實務經驗一致
2、單一變數應維持至多8個區間
3、各分群好壞對比值 (G/B Index) 至少需差距15以上
4、各分群需涵蓋2%以上模型開發樣本
5、各分群需至少有30筆發生目標事件的開發樣本或是占該群樣本的1%
6、將空白、缺值或其他特殊變數值合并至同一區間,概稱為空白集 (Null Group)
7、一般Null Group分群好壞比需較整體為低 (好壞對比值接近100B或以上)。
範例利用「近1個月額度使用率」的細緻分類表,進一步說明如何進行變數的粗略分類步驟:
步驟一:
因為近1個月的額度使用率小於等於4.78%的11個分群,其違約率均小於0.30%,好壞比大於400且好壞對比值大於400G,所以會將這11個分群合并為單一分群。
步驟二:
近1個月額度使用率大於4.78%,小於等於10.21%的三個分群,因為違約率介於0.30%至0.38%,好壞比與好壞對比值較為相近,所以將此三個分群合并為一新的分群。
步驟三:
近1個月額度使用率大於10.21%,小於等於20.51%的兩個分群,因為違約率、好壞比與好壞對比值與前後的分群都有顯著的差距,因此將這兩個分群合并為新分群。
步驟四:
將近1個月額度使用率的粗略分類結果並逐一檢視前述各項原則:
1、變數上升或下降的趨勢需與實務認知一致
2、單一變數應維持至多8個區間
3、各分群好壞對比值至少需差距15以上
4、各分群需涵蓋2%以上模型開發樣本
5、各分群需至少有30筆發生目標事件的開發樣本或是占該群樣本的1%
第六章 模型建置方法
範例利用「近1個月額度使用率」的細緻分類表,進一步說明如何進行變數的粗略分類步驟:
建立模型可運用的方法非常多,如區別分析 (Discriminant Analysis)、線性迴歸 (Linear regression)、羅吉斯迴歸 (logistic regression) 及分類樹(Classification Trees) 等統計方法;或是類神經網路 (Neural Networks)、基因演算法 (Genetic Algorithms) 及專家系統 (Expert Systems) 等非統計方法。
在實務運用上,選擇線性迴歸或羅吉斯迴歸來建構評分模式,在模式實行上成本較低也較快速,是模型研發人員最常選用之方式。
1
線性迴歸 (Linear Regression)
線性迴歸是研究單一應變數與一個或以上自變數之間的關係。線性迴歸適用於連續屬性之模型配對,當只有一個自變數時,其迴歸模型為:
一般線性迴歸需滿足以下基本假設:
1、自變數與應變數之間呈現線性關係
2、殘差項之期望值為0
3、殘差項之變異數為一常數
4、觀測值互相獨立
5、殘差項需服從常態分配
(一)變數選擇
選取自變數時,最常使用的方式都是逐步迴歸 (stepwise multiple regression) ,系分為三種選擇法:
先從所有變數中,選擇對模型貢獻最大者進入迴歸方程式;然後再逐一選擇第二個、第三個…預測力較高的變數進入模型中而進入的標準為是否具有最小F機率值,通常設值為0.50,若自變數的F值小於此者,將被選取進入。
此方法與順向選擇法相反,一開始選入所有的變數,然後逐一刪去對模式的貢獻最小者,然後再選其他變數進入模型中,而剔除的標準為是否具有最大F機率值,通常設值為0.10,若自變數的F值大於此者,將被選取剔除。
這是上述兩項技術的綜合。首先在模式中不包含任何預測變項,然後采順向選擇法,將對模式貢獻最大的自變數挑選進入迴歸模式中。而在每一步驟中,已被納入模式的自變數則必須再經過反向淘汰法的考驗,以決定該變項要被淘汰或留下。逐步迴歸法F機率值的進入標準通常為0.15,剔除標準亦為0.15。
(二)模型績效
在運用線性迴歸分析做推論時,最常用到T檢定、F檢定及R2等來檢定所產生的重要統計量是否具有統計上之顯著水平,判斷此迴歸式是否具有意義:
檢定迴歸係數是否具有統計上的顯著意義,t檢定統計量是用來檢定每一個係數是否為0,若經由檢定發現某個係數並不顯著,也就是與0無顯著差異,則需視察是否有資料本身的問題 (如樣本數不足),或是非線性關等,若此變數對模型績效無貢獻即可考慮將該變數剔除。
迴歸分析中,F值是用來檢定自變數集合與應變數之間是否具有顯著關係,在此以F統計量來檢定整個迴歸式是否具有意義,亦即檢定迴歸式之所有係數是否均為0,若均為0,則所估計之迴歸式無法妥適描述應變數之行為,有再予修正之必要。
複相關係數乃用以說明所估計出來之迴歸式能夠解釋實際狀況的程度,通常以判定係數R2判斷應變數與整體自變數的關係是否密切,亦即迴歸模式的解釋能力是否充足。
2
羅吉斯迴歸 (Logistic Regression)
(一)模型設定
羅吉斯迴歸模型的應變數為二擇一之屬質變數,其出現的變數值只有好與壞 (包括違約/非違約事件、失敗/成功等情況) 的二擇一可能事件。此方法具有易懂、非黑箱作業、能與機率結合等優點,故為開發評分卡最常使用之方法。假設應變數為Y,Y值為0或1,自變數為X=(X1,X2,…,Xk)。
令
(二)參數估計
羅吉斯迴歸模型的參數估計是利用最大概似法估計。每個觀察值皆為0或1的數值,因此 (此為白努利分配,n為樣本數),其概似函數表示如下:
(三)自變數之處理
一般常見方法為採用每一變數分組後之WOE值,或每一變數分組之虛擬變數 (dummy ariable)。
1)WOE值 :
使用前階段中每一個變數分組後之WOE值,來取代原本的變數值做為迴歸模型訓練的投入,除可避免變數值中極端值 (Outliers) 的情形,亦可減少模型過度配適 (Overfitting) 的現象。
WOE的計算方式如下:
其中,
i:特徵變數分箱的組別
Distr Good:各分組中好件佔全體好件的比例。
Distr Bad:各分組中壞件佔全體壞件的比例。
2)虛擬變數 (dummy variable):
利用每一個變數分組設定虛擬變數 (dummy variable)在羅吉斯迴歸來說,離散或名目尺度的變數,例如性別、學曆、婚姻狀態等並不適宜,以區間尺度為例,每個數字代表不同層級,此時的數字不代表任何顯著意義,在這種情況下,就可使用虛擬變數的方法。
以「教育程度」為例,此解釋變數分為5個群組,含小學、國中、高中職、大專及研究所以上,則其虛擬變數設計左。
一般來說,如果名目尺度的變數被分為n個群組,則需要n-1個不同形式的虛擬變數被設計,其中設定為基準的分組,也就是數值全為0的判定,通常會採用Bad%最接近全體者之分組。
(四)模型績效
利用演算法所得之參數估計值,需檢定參數是否具有其顯著的效果存在。
在大樣本的條件下,檢定,在的顯著水平下,當Wald統計量值大於,則表示該係數顯著不為零。
在模型適合度檢定部分,整個模型建立後對模型適合度的檢定,即檢定其檢定統計量為-2Log (L),是以概似函數為基礎 。當-2Log (L)大於,則表示該模型配適不當。
3
兩階段式建置方法
一般在建置評分卡時,羅吉斯迴歸之應變數永遠為0或1,而無法使用連續型變數,因此可考慮利用線性迴歸,將前階段羅吉斯迴歸分析產生之殘差值做為第二階段之應變數。
採取二階段迴歸,可選擇將預測力較強的變數納入後階段線性迴歸模型,如此一來,評分模型較不易受預測力高的變數所獨斷而造成影響及偏頗。例如:在建置信用卡評分卡時,為避免模型過分仰賴聯征變數,可於第一階段羅吉斯迴歸僅納入行內變數進行分析,聯征變數則於第二階段加入。
執行兩階段式迴歸建置步驟如下:
1. 模型建立:為使模型有較佳的精確性及穩定性,通常會將模型樣本區分為「訓練-測試」兩組資料集(Development & Hold-Out Sample),分別佔整體樣本之「70%至30%」,利用70%之訓練樣本執行逐步迴歸。
2. 第一階段迴歸-羅吉斯迴歸模型:若有變數其區間給分與其對應之好壞對比值 (GB Index) 出現矛盾,或與實務認知相斥,則需重新設計該變數區間或選擇排除該變數,再重新執行迴歸動作。
3. 相關分析:檢查選入變數之相關性,將所有變數進行相關係數分析,相關係數高於0.85之變數取VOI高者,以避免模型存在共線性問題。
4. 重複執行2至3之動作以找尋最佳模型。
5. 第二階段迴歸:步驟4可得到第一階段羅吉斯迴歸計算後的殘差值,以此做為第二階段線性迴歸的應變數。相似的迴歸分析過程亦於第二階段執行,重複執行2至5步驟以確保所挑選變數組合符合統計與實務經驗,最後產出最終評分模型。
6. 模型檢驗:利用30%的測試 (hold-out) 樣本與時間外 (out-of-time) 樣本分別進行效度檢驗,以確保模型之精確及穩定性,若無法達到指定標準,則重複步驟1至5。通常是以Gini值與K-S值來做為指定標準,一般而言,Gini值達40%、K-S值達30%,表示模型對好壞案例鑒別力強
7. 將最終評分模型所得之變數係數乘以1,000即可得評分卡分數。
(一)初始模型討論
針對評分卡建置流程,PA meeting (Preliminary Analysis Meeting) 主要針對前階段各流程作細部介紹,並著重初始模型納入變數之討論,此部分需仰賴各單位專業人員之實務經驗與模型作結合,故該評分卡產品之上遊至下遊相關單位皆應派員參與討論,如業務單位、營銷單位、征審單位及政策單位等。
PA meeting的議程重點如下:
1、 簡述評分卡目的與流程架構
2、樣本區間說明
3、資料簡介
4、評分卡之好壞定義介紹
5、評分卡開發過程簡介
6、評分卡變數各區間切點及權重討論
7、評分卡修正
後續由開發模型人員根據會中提出之問題與建議執行模型修正分析,例如變數更換與區間重新設計等,再於會後提出最終模型評分成果。
(二)範例
針對樣本進行模型建置,其步驟如下 :
步驟一:變數轉換
將變數轉換為虛擬變數,以確保資料及模型之穩定性。
步驟二:羅吉斯迴歸
利用虛擬變數套入羅吉斯迴歸模型之自變數中,即可得到第一階段之模型。
步驟三:線性迴歸
利用前階段羅吉斯迴歸之殘差為應變數,聯征變數為自變數,進行線性迴歸分析
步驟四:羅吉斯迴歸及線性迴歸模型合并
在反覆的變數群組重設及納入實務經驗後,即可產生初始模型。接下來,應由模型人員及使用人員針對初始模型進行討論會議。
第七章 婉拒推論 (Reject Inference)
申請評分卡是利用通過審核者的曆史資料來建立模型,此模型會忽略原先被婉拒客戶的影響力,使得模型略顯樂觀,故需透過婉拒推論來對模型進行修正,以使模型更加地精確及穩定。
1
婉拒推論原因
進行婉拒推論的原因,最主要是為了防止申請樣本的可能偏誤,進而還原申請當時母體之真實分配情形,至於其他進行婉拒推論的原因尚有:
1、增加建模樣本數量:此說法類似防止樣本偏誤的原因。一般而言,建模樣本只考慮核准件,佔全體樣本的比例太小,進行婉拒推論可增加建模樣本佔全體樣本的比例,所建置之模型也更具代表性。
2、公司內部政策的變動可能導致過去的申請者已不能代表未來的申請者;同樣地,過去婉拒不代表未來還會被婉拒,因此若僅以核准件建置模型可能會造成誤判。
3、從做決策的觀點來看,婉拒推論可以對所有申請客戶做出更正確而真實的推測。舉例來說,某家銀行傳統上核准評分卡分數大於或等於500分以上的客戶,但現行政策覺得過於保守,想要改為核准450分以上之客戶,如果此銀行從未核准過500分以下的客戶,就無法得知此舉會增加多少風險?而婉拒推論則允許估計沒有核准過案例之壞帳率,並能協助做出決策。
4、利用婉拒推論還可能找出過去被拒絕的好客戶,發掘這些客戶,進而改善內部流程,並找出可增加之利益。
婉拒推論適合使用的時機:
1、高核准率、且對判斷的信心很強時,不適用:此時因核准率過高,且對決策有高度的信心,故可以假設被婉拒的人均為壞人。
2、高核准率、不管壞帳率如何,不適用:高壞帳率,因為高核准率的母體已經接近所有申請件,代表此時母群體大多無壞帳,不管有沒有做婉拒推論影響並不大。低壞帳率,同理如上,此時可作「被婉拒的都是壞人」的推論。
3、中低核准率適用:配合適當的風險策略,婉拒推論可以協助找到更適合的客戶。
加入婉拒推論後,申請模型的建置流程圖:
2
婉拒推論方法
一、所有的婉拒件皆為壞件
此方法較不恰當,因為在婉拒資料中某部分可能是好客戶,可能因此而降低模型的精確性。當然,如果在很高的核准率下,例如95%以上,且征審有很高之判斷能力,則在可靠程度下,可以假設所有婉拒件皆為壞件。
二、指派婉拒客戶依現行和核准件好壞比做推論
此法是假設現行判斷系統是非常公正沒有偏誤的。但假設這樣的比例並無任何協助,需要佐以相關之計算與類比才能相得益彰。
三、忽略所有婉拒的客戶
此方法是假裝沒有這些婉拒客戶之存在,順便也把低於切分點的客戶一律婉拒,其步驟為:
1. 利用所有核准件建立一評分模型。
2. 再次評分,將低於切分點的人全部視為婉拒件。
但此方法只是事後評論現行系統,對現行系統或征審流程毫無信心,一般並不常使用此方法。
四、核准所有的申請件
此方法是找出拒絕客戶其真正的表現,此會與某段特定時間核准客戶有關連,此可得知樣本真正核準的客戶表現,此方法是最實際且科學的方法,不會有太保守或高估的壞帳率。
五、以內部或行外資料為基礎之方法
(一)兩張評分卡互動運用
此方法是針對在某一產品被拒絕,但在另一類似產品卻被核準的客戶,利用內部資料來分析其行為表現。
(二)利用行外資料
本行所婉拒的客戶但其他公司卻核准之客戶,可利用其在他行的外部資料來追蹤該客戶之行為表現。此方法近似真正的表現,但其缺點如下:
1、只能改善某一張卡的表現,但實際壞帳仍發生對於行內的資產品質並無改善。
2、在管理方面的障礙是無法取得被婉拒客戶的信用評等紀錄,除了許可權或時間上的限制外,還有個資法因素,讓銀行不一定能搜集或買到該客戶的相關資料。
假設需要將資料拿來做行內的交叉利用,需要注意以下幾點:
1、 需在相同的時間起迄點,以避免因時間的不同而造成季節偏誤。
2、好壞的定義要接近。
3、樣本數不會太多:因為壞客戶申請同一家行庫的產品,可能在第二張評分卡時被婉拒。
六、分配法 (Parceling)
此法系依每一個區間的好壞比例重新分配好壞件,並將拒絕件分配到每一個分數級距中,其包含以下步驟:
1、使用已知的好/壞件樣本,建置初步評分卡模型。
2、使用第一階段模型來評分所有的婉拒件,並且估計它們的預期違約機率。
3、將已知的好/壞件樣本依評分分數高低進行分組,計算各分組內的實際違約率。
4、同樣地,將婉拒件依前步驟之分數進行分組。以各分組的實際違約率做為抽樣比例,隨機抽取該分組下的婉拒件,並指定其為壞件,其餘則為好件。
5、將這些已推論為好/壞件的婉拒件樣本新增到原有的核准件樣本中,並且重建立置評分卡模型。
核准及婉拒件於評分卡分數的分配,其中婉拒件是利用核准件之評分卡來判斷其分數分配,至於婉拒件之好壞分配,則是利用核准件之Bad%及Good%去分配,例如在753至850此區間中有605件婉拒,其在核准件的Bad%=10.6%,因此會有64件婉拒件被分配至壞件 (605×10.6%=64),而好件則為541件 (605×89.4%=541)。
七、硬性截斷法(Hard Cutoff)
又稱單純擴張法(Simple Augmentation),其方法類似Parceling法,但是Hard Cutoff是將所有婉拒件依給定分數分配到壞件或好件,而Parceling法則是在不同分數區間內,依不同比例,分配婉拒件到每一個分數級距裡。Hard Cutoff法步驟如下:
1、使用已知的好/壞件樣本建置評分卡模型。
2、使用評分模型來評分所有婉拒件,並建立預期壞帳率P (bad)。
3、設定一個壞帳水平區分好壞件,在此壞帳水平以上視為壞件,以下視為好件。
4、將推論婉拒件之好壞重新置於模型中並建置評分卡模型。
模擬申請時核准婉拒比例來對樣本之拒絕件做適度的加權。以左圖為例,申請母體的核准件與婉拒件分配的比例為70%與30%,建模樣本核准件與婉拒件分配的比例為66.6%與33.3%,則可推測建模樣本婉拒比例稍高,需要利用母體比例來加權調整,因此可調整婉拒件的比重為(66.6%/33.3%)/(70%/30%)=0.8574。
八、模糊法 (Fuzzy)
此法不是指派樣本為好/壞件,而是將每個婉拒件樣本拆為部分的壞件與好件。Fuzzy法步驟如下:
1、用已知核准件樣本的模型來對婉拒件評分並估計違約機率。
2、依估計的違約率對每一個婉拒件算出p (Good) 及p (Bad)。
3、將被婉拒件樣本區分為好件及壞件兩樣本。將壞件加權上估計的違約機率,好件則加權上非違約件的機率。
4、將婉拒件與核准件的樣本結合,重建立置評分卡模型。
九、迭代再分類法 (Iterative Reclassification)
此法類似Hard Cutoff,但此方法是重複分群一直到某一臨界值為止。此方法步驟如下:
1、根據核准案例建立評分卡;
2、利用現有的模型對婉拒客戶加以評分。評分後利用每個區間的好壞比做婉拒客戶的好壞比,並隨機給定好件或壞件;
3、給定後合并核准件,重建立立模型,直到指定的統計量收斂為止,比方說可用ln (odds) vs. score的散布圖,或用模型的參數達一定的收斂區間等;
4、若用好壞比與模型的表徵圖法,需要注意所有的線都要在已知的好壞比線下,否則會有婉拒客戶比核准客戶品質好的疑慮。
第八章 最終模型選擇與風險校準 (Calibration)
根據特徵變數分析以及二階段迴歸模型等方式所衍生出來之模型迴歸式,是評分卡及違約機率 (Probability of default;PD) 模型最重要的架構,從此架構可以分別發展出:
1. 申請或行為評分卡
2. 用於資本計提的PD模型
1
最終模型產出
最終模型產出為一迴歸式,其模型在評分卡的運用上較不易解釋,故必須將變數轉換為分數以利於業務上的運用;
變數的轉換可選擇利用虛擬變數 (dummy variable) 或WOE值來取代,其中虛擬變數可單純地將各變數群組乘以1,000來表達各變數群組的權重;而WOE值則需套用較複雜的轉換。
運用評分卡尺度技術將評分卡係數轉換為便於解讀的權重之方式:
1. (Good/Bad) 的比值:
平均分數為200 分,每隔20分勝算比 (Odds) 加倍,Odds指的是好壞件 (Good/Bad) 的比值,也就是每隔20 分,好件與壞件的比例會加倍,因此,我們可以根據此分數區間規劃合理的風險區,以進行差異化管理。
2. 分數尺度:
(1)基本上我們建置的評分卡規則為可加成之規則,因此,調整後的分數根據以上的假設必須為單純之線性方程式:Score=A+B×ln (odds) (式1)
由於假設平均分數200分,每格20分Odds加倍,因此,我們可以將此假設代入式1,得到以下方程式:Score+PDO=A+B×ln (2odds) (式2)
(其中PDO為Point of Double Odds,表示每隔多少分Odds加倍)將式2減式1,Score 互相抵消,可以得到以下方程式:
PDO=B×ln (2odds)-B×ln (odds)=B×ln(2) (式3.1)
B=PDO/ln(2) (式3.2)
此時就可以根據PDO之假設計算B值,同時將B值帶入方程式,即可計算A值:A=Score-B×ln (odds) (式4)
(其中Score為平均分數,Odds則以建置模型時的平均水平帶入)
(2) 根據羅吉斯迴歸方程式,Odds等於各變數的 以及迴歸方程式係數與常數項之組合,根據方程式計算,可以得到以下分數尺度公式: Score=A+B×ln (odds)
其中,為該變數值在分群中的WOE值,n為模型迴歸式裡的變數數量。
由上述方式則可產出最終模型如表:
此方式目的如下:
1. 便於建置過程中各個版本評分卡互相比較。
2. 便於使用者解讀。
3. 便於監理機關資訊揭露同時與違約機率整合。
2
設定風險校準 (Risk Calibration)
不同評分卡的分數調校
評分模型風險校準過程如下:
1、計算出各分群所有樣本之最終模型評分。
2、各分群樣本分數由低至高排序。
3、將排序後之樣本切成n等分,可能是20等分、30等分及50等分等,再計算每一等分的好件數、壞件數、好壞比、Ln(Odds) 及平均分數。
4、建立每種切等之平均分數及Ln(Odds) 間的迴歸式,觀察在哪種切等方式下,迴歸式會有最佳的解釋能力,亦即有最高的R-Square,並觀察期望好壞比值 vs.實際好壞比值是否相近。
5、由上述迴歸式套入Score=A+B×Ln(Odds),則可得到最後之校準函數,如Base Score為400,PDO為40,則 Final Score=400+40/ln (2)×ln(Odds)
其中對數好壞比值【ln(Odds)】則是由平均分數及對數好壞比值間所建立之最佳迴歸式帶入即可,其可利用各種統計軟體包求得其最適模型。
6、以校準分數為應變數,最終評分模型之變數為自變數進行迴歸分析,可得到最後各變數屬性之係數,此即為風險校準後評分卡 (Calibrated Scorecard) 的分數。日後評分卡變數使用及定期監控皆以Calibrated Scorecard為主。
以表8-2及表8-3為例,可以得到分群30之解釋能力最佳 (R2為0.993最高),則其校準函數則如下所列:最後分數=400+40/ln (2)×(-190.7+0.002 -0.25 +0.01 )
3
風險等級的區隔
為利於實務上的應用,應針對評分卡分數進行風險區隔,一般以不超過20等份為主,常用之切分方式有:
(一)好壞比法:
將風險級距相近的切成同一等級,主要是將相同風險等級的族群分層管理,其往上的差距約為雙倍好壞比 (double odds)。
(二)母體均分法:
每個風險等級分配的人數相近,且每個級距的建模樣本應有一定以上的數量。樣本數太少的等級可與其他相鄰等級合并,一般而言,這會發生在低分群與高分群的等級中。每一個切分完成的風險等級,其內含樣本數至少要有全體建模樣本的3%至5%,才是足夠的樣本數量。
3
風險等級的區隔範例
4
模型驗證
在信用評分卡建置過程中,為了能夠有效評估信用評分卡之預測能力以及診斷是否需要進一步修正,必須透過以下模型驗證來檢視評分卡成效。
一、吉尼 (Gini) 係數:
中向下彎曲曲線即稱為Lorenz’s Curve是用來評估評分卡鑒別效果的標準圖表,其橫軸是根據分數由高至低,累計的正常客戶佔總正常客戶的比例,而縱軸則是分數由高至低,累計的違約客戶佔總違約客戶的比例。
由於分數高者為低風險客戶,因此累積違約比例的成長速度會低於累積正常客戶,因此,Lorenz’s Curve會呈現向下彎曲的曲線,在Lorenz’s Curve圖中,向右下突出的半月型面積除以45度線下方三角型面積的比值,稱為吉尼係數 (Gini Coefficient)。
此項係數愈大,鑒別力愈高;反之,係數愈小,表示鑒別力愈低。而45度線的含意則代表模型不具區別能力(即為隨機模型)。
二、Kolmogrov-Smirnov值 (K-S值):
ROC曲線即是以在所有可能的截斷點下,所計算出來對評分模型的誤授率(型一誤差率,誤授率表示模型將違約客戶誤評為好客戶,進行授信業務的比率)和1-誤拒率 (型二誤差率,誤拒率表示模型將正常客戶誤評為壞客戶,拒絕其授信業務的比率) 的數量,所繪製而成。
AUC值為曲線下方之總面積。
三、ROC曲線上的面積 (Area Under ROC Curve;AUC)
K-S Test圖則是用來評估在評分卡何種評分區間能夠將正常客戶與違約客戶分開,K-S值愈高,則代表兩者距離愈大;因此,K-S曲線出現的最大值之處就是鑒別正常戶與違約戶的最佳點。
模型區別力判斷指標
模型驗證除對發展組樣本 (Development Sample) 做鑒別力檢定外,亦需針對測試組 (Holdout Sample) 及樣本外 (Out sample) 做驗證。.
其中測試組,顧名思義是驗證樣本同時亦為建模樣本的一部分,隨機抽取建模樣本的一部分,做為樣本內驗證的驗證樣本。
樣本外的驗證,是來自非建模樣本的驗證資料,依取樣時期又可分為樣本外 (Out of sample) 驗證樣本,以及樣本時間外 (Out of time) 驗證樣本。樣本外驗證樣本為取樣時點與建模樣本為同樣取樣時點的驗證樣本,而樣本時間外驗證樣本則為取樣時點不包含有與建模樣本相同取樣時點的驗證樣本。
訓練組及測試組 (Development & Hold-Out Sample) 驗證
訓練組占建模樣本的70%,測試組占建模樣本之30%,以下表為例,訓練組及測試組皆通過Gini值及K-S值的評鑑,具有良好之好壞區辨能力。
時間樣本外 (Out-of-Time Sample) 的驗證
此為確保模型不會因為外在因素而無法適應,也為確保模型不受時間的幹擾。此資料集與原始的資料集僅時間點不同,其他的資料欄位與定義仍與原來的資料相同。
Gini值及K-S值稍有下降,但皆在良好之好壞區辨能力範圍內,表示此模型不受時間因素幹擾,模型仍可維持其原有的鑒別力。
針對風險等級區分結果進行驗證,分別針對訓練組、測試組及樣本外資料進行模型鑒別力驗證,以確保此等級區分方式是有鑒別力的。
如所示,此分級下Gini值及K-S值表現都是十分良好的。
本專題還將繼續推出,敬請關注!
下期章節:
第九章 決策點 (Cut-off) 設定
第十章 信用評等模型監控報告
第十一章 信用評等模型策略運用
第十二章 信用評等模型案例
信用評級模型執行個體分析(以消費金融為例)-中