所以這裡引出一個IV值的概念,IV值就考慮了這個變數能夠區分風險客戶的數量,如果各位感興趣,我們會根據閱讀數和轉發數在下篇專門介紹IV值以及利用WOE和IV值處理資料的詳細案例以幫助各位更好的理解業務場景
原理在此不贅述了,後面給出Python程式碼GBDT和LR的比較經過多次對相同真實資料的建模,得到GBDT與傳統邏輯迴歸(LR)比較①在特徵數量較小(<5)時,GBDT(用原始值,不用WOE值)得出的JINI值比LR(用WOE值)要高
從這個表我們可以看到,變數取1時,響應比達到90%,對應的WOE很高,但對應的IV卻很低,原因就在於IV在WOE的前面乘以了一個係數,而這個係數很好的考慮了這個分組中樣本佔整體樣本的比例,比例越低,這個分組對變數整體預測能力的貢獻越低
在SPSS中進行信用評分的步驟如下: 步驟一:對輸入變數進行分箱 步驟二:建立輸入變數與目標變數的邏輯迴歸模型 步驟三:對模型效果進行評分 步驟四:根據業務引數將模型轉化為信用評分2
圖 2 - 樣本賦權後的兩種模型訓練方案個人更傾向於第一種方案,原因在於:WOE變換側重變數的可解釋性,引入樣本權重會引起不可解釋的困擾
當然,一般情況下出現這種極端情況的可能性並不太大,並且,實際上我們的woe編碼是需要做一些更加細緻的處理的,以上述的情況為例,數量少於一定閾值的類別特徵我們應該對其進行合併,或者其woe編碼值直接使用ln(所有樣本的好壞客戶比值),cate