cut( x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False,
DataFrame({‘id’:[1,1,1,3,4,5],‘name’:[‘Bob’,‘Bob’,‘Mark’,‘Miki’,‘Sully’,‘Rose’],‘score’:[99,99,87,77,77,np
append(PSI_cal(5,X,y,cats))可以看到,聚類分箱的方法相對於有監督分箱的結果要差很多,但是穩定性確實很高,並且聚類的蔟越多,iv值越高,這個後續有空考慮放進去試試quantile 等寬mergeiv=[]PSIs=[
plot_roc(vali_y, vali_proba_df,plot_micro=False,figsize=(6,6),plot_macro=False)def plot_model_ks(y_label, y_pred):“”“繪製k
基於自研的shap-NDPS/AUC來對穩定性和效能進行分析和歸因模型監控的指標和核心維度整個模型的監控而言核心的是分箱條件下的資料穩定性和效果穩定性對於一個模型而言核心維度就是分箱/分箱佔比/當前分箱內數量/當前分箱好樣本數量/當前分箱壞
4、正態分佈:將資料歸一化後擬合正態分佈,然後淘汰掉低分割槽偏離a倍標準差的人
DataFrame({col: col_value, ‘chi_square’:chi_list,‘pos_cnt’:pos_list, ‘expected_pos_cnt’:expected_pos_list})return chi_re
上式為i大於1的情況,i=1時,那就是問題1,這個方程就是(i=1)理論部分告一段落,接下來是實戰驗證本次使用的是一份真實信貸進件資料(抽過樣),先隨機抽一個連續變數來看分箱結果,第一張圖是ks,第二張是卡方,由於變數名涉密,我已隱去:下圖
在SPSS中進行信用評分的步驟如下: 步驟一:對輸入變數進行分箱 步驟二:建立輸入變數與目標變數的邏輯迴歸模型 步驟三:對模型效果進行評分 步驟四:根據業務引數將模型轉化為信用評分2
OX01 標準化、歸一化與正態分佈化sklearn中的IRIS(鳶尾花)資料集來對特徵處理功能進行說明:from sklearn
value_counts())woe_iv_compute(train_data[[item,‘y’]])print(‘-’*20)部分分類變數的IV值計算結果一覽透過計算IV值,可以看到一些有趣的現象:retire的職業人群更可能購買產品
比較常見的有等頻、等寬、聚類離散化,這類方案的問題在於對於分佈不均勻的資料並不適用,等頻和等寬都不能很好的反應“尖頭”的資料,除非人工手動干涉,聚類本身對於這類問題的表現也並不穩定,經常可能出現的情況就是“尖頭”資料有一部分分到平緩分佈的數
inverse_transform(result)#將歸一化後的結果逆轉#使用MinMaxScaler的引數feature_range實現將資料歸一化到[0,1]以外的範圍中data=[[-1,2],[-0