決策樹剪的剪枝：REP [降低誤差剪枝法]

作者：由趙明明發表于曲藝時間：2021-04-29

決策樹剪枝示意圖

此方法相比悲觀剪枝法PEP，代價負載度法CCP非常簡單，只用算誤差就行了，就是算模型的錯誤率就行了。

我們生成一顆決策樹的過程，實際上就是不斷生成新的節點的過程。隨著節點的生成，模型能力越來越強，對應著錯誤率就越來越低，就是對每個樣本的決策結果誤差就越來越小。

也就是說，要降低誤差，就得生成新的節點，這一步是在訓練決策樹的過程中做的。

但是現在我們已經訓練好了這顆樹了，已經不能再生成新的節點了。

而現在整個決策樹對訓練樣本決策能力太強，基本上都能決策正確，而對新的沒見過的測試樣本決策能力太多弱，錯誤率非常高。

也就是說決策樹發生了過擬合。

我們要把發生過擬合的決策樹進行剪下，以達到減小過擬合的影響。

達到怎樣的目的呢？

達到對新的沒見過的測試樣本決策能力不是那麼弱，有所提高就行，對應錯誤率有所降低就行。同時在訓練樣本上決策能力不要降低太多就行。

本著這樣的目的，我們就構造一個新的，訓練決策樹時，沒有見過的資料集來測試決策樹，

如果我們剪裁掉一些子樹，結果在新的沒見過的資料集上，錯誤率降低明顯，而在原資料集上錯誤率升高幅度不大，那麼我們說明我們剪下掉這些子樹是正確的。

這就是誤差降低剪枝法REP。

這裡的誤差是一個新的模型沒有見過的資料集的誤差。

這裡面有個需要具體確定的值，就是這個錯誤率降低多少，我們實行剪裁。

這個值我們根據實際需要去調整即可。

原資料集上錯誤率上升不大，這個也是一個隨機應變的值。

標簽：錯誤率決策樹誤差決策節點

猜你喜歡