分箱

您當前的位置：首頁 > 標簽>分箱

資料分箱之pd.cut()
cut（ x， bins， right=True， labels=None， retbins=False， precision=3， include_lowest=False，
2020-05-26標簽：分箱 Pd Cut bins df
閱讀更多
用Python進行資料清洗！
DataFrame（{‘id’：［1，1，1，3，4，5］，‘name’：［‘Bob’，‘Bob’，‘Mark’，‘Miki’，‘Sully’，‘Rose’］，‘score’：［99，99，87，77，77，np
2019-09-19標簽： Sample 缺失分箱資料 normal
閱讀更多
IEEE-CIS Fraud Detection 覆盤——嘗試對原始資料負取樣後進行細緻的特徵工程
append（PSI_cal（5，X，y，cats））可以看到，聚類分箱的方法相對於有監督分箱的結果要差很多，但是穩定性確實很高，並且聚類的蔟越多，iv值越高，這個後續有空考慮放進去試試quantile 等寬mergeiv=［］PSIs=［
2019-10-29標簽： TransactionAmt bins train 特徵分箱
閱讀更多
【風控建模】基於邏輯迴歸的評分卡開發（I）
plot_roc（vali_y， vali_proba_df，plot_micro=False，figsize=（6，6），plot_macro=False）def plot_model_ks（y_label， y_pred）：“”“繪製k
2020-03-29標簽： bins df num list 分箱
閱讀更多
模型監控體系（一）
基於自研的shap-NDPS/AUC來對穩定性和效能進行分析和歸因模型監控的指標和核心維度整個模型的監控而言核心的是分箱條件下的資料穩定性和效果穩定性對於一個模型而言核心維度就是分箱/分箱佔比/當前分箱內數量/當前分箱好樣本數量/當前分箱壞
2021-07-18標簽：分箱模型監控 histogram Neg
閱讀更多
當指標的資料非常接近的時候如何擴大其差異？
4、正態分佈：將資料歸一化後擬合正態分佈，然後淘汰掉低分割槽偏離a倍標準差的人
2021-03-16標簽：歸一化區間淘汰分箱正態分佈
閱讀更多
詳解卡方分箱及應用
DataFrame（{col： col_value， ‘chi_square’：chi_list，‘pos_cnt’：pos_list， ‘expected_pos_cnt’：expected_pos_list}）return chi_re
2022-02-11標簽： chi Result 分箱 index min
閱讀更多
拋開貪心演算法，來談談變數分箱這件"小事"
上式為i大於1的情況，i=1時，那就是問題1，這個方程就是（i=1）理論部分告一段落，接下來是實戰驗證本次使用的是一份真實信貸進件資料（抽過樣），先隨機抽一個連續變數來看分箱結果，第一張圖是ks，第二張是卡方，由於變數名涉密，我已隱去：下圖
2018-06-02標簽： iv 分箱數字最優 func
閱讀更多
信用卡評分模型（SPSS）
在SPSS中進行信用評分的步驟如下：步驟一：對輸入變數進行分箱步驟二：建立輸入變數與目標變數的邏輯迴歸模型步驟三：對模型效果進行評分步驟四：根據業務引數將模型轉化為信用評分2
2017-11-22標簽：評分 woe 分箱信用分值
閱讀更多
資料分析|Python特徵工程（5）
OX01 標準化、歸一化與正態分佈化sklearn中的IRIS（鳶尾花）資料集來對特徵處理功能進行說明：from sklearn
2020-01-29標簽：歸一化特徵分箱資料 data
閱讀更多
客戶購買預測【分類模型的運用】
value_counts（））woe_iv_compute（train_data［［item，‘y’］］）print（‘-’*20）部分分類變數的IV值計算結果一覽透過計算IV值，可以看到一些有趣的現象：retire的職業人群更可能購買產品
2020-12-02標簽： train AGE iv df 分箱
閱讀更多
特徵離散化（分箱）綜述
比較常見的有等頻、等寬、聚類離散化，這類方案的問題在於對於分佈不均勻的資料並不適用，等頻和等寬都不能很好的反應“尖頭”的資料，除非人工手動干涉，聚類本身對於這類問題的表現也並不穩定，經常可能出現的情況就是“尖頭”資料有一部分分到平緩分佈的數
2019-09-23標簽：離散分箱方法特徵 tree
閱讀更多
Part3 - 資料預處理和特徵工程
inverse_transform（result）#將歸一化後的結果逆轉#使用MinMaxScaler的引數feature_range實現將資料歸一化到［0，1］以外的範圍中data=［［-1，2］，［-0
2019-11-24標簽：歸一化 fit Transform 分箱 scaler
閱讀更多

資料分箱之pd.cut()

用Python進行資料清洗！

IEEE-CIS Fraud Detection 覆盤——嘗試對原始資料負取樣後進行細緻的特徵工程

【風控建模】基於邏輯迴歸的評分卡開發（I）

模型監控體系（一）

當指標的資料非常接近的時候如何擴大其差異？

詳解卡方分箱及應用

拋開貪心演算法，來談談變數分箱這件"小事"

信用卡評分模型（SPSS）

資料分析|Python特徵工程（5）

客戶購買預測【分類模型的運用】

特徵離散化（分箱）綜述

Part3 - 資料預處理和特徵工程