您當前的位置:首頁 > 曲藝

決策樹剪的剪枝:REP [降低誤差剪枝法]

作者:由 趙明明 發表于 曲藝時間:2021-04-29

決策樹剪的剪枝:REP [降低誤差剪枝法]

決策樹剪枝示意圖

此方法相比悲觀剪枝法PEP,代價負載度法CCP非常簡單,只用算誤差就行了,就是算模型的錯誤率就行了。

我們生成一顆決策樹的過程,實際上就是不斷生成新的節點的過程。隨著節點的生成,模型能力越來越強,對應著錯誤率就越來越低,就是對每個樣本的決策結果誤差就越來越小。

也就是說,要降低誤差,就得生成新的節點,這一步是在訓練決策樹的過程中做的。

但是現在我們已經訓練好了這顆樹了,已經不能再生成新的節點了。

而現在整個決策樹對訓練樣本決策能力太強,基本上都能決策正確,而對新的沒見過的測試樣本決策能力太多弱,錯誤率非常高。

也就是說決策樹發生了過擬合。

我們要把發生過擬合的決策樹進行剪下,以達到減小過擬合的影響。

達到怎樣的目的呢?

達到對新的沒見過的測試樣本決策能力不是那麼弱,有所提高就行,對應錯誤率有所降低就行。同時在訓練樣本上決策能力不要降低太多就行。

本著這樣的目的,我們就構造一個新的,訓練決策樹時,沒有見過的資料集來測試決策樹,

如果我們剪裁掉一些子樹,結果在新的沒見過的資料集上,錯誤率降低明顯,而在原資料集上錯誤率升高幅度不大,那麼我們說明我們剪下掉這些子樹是正確的。

這就是誤差降低剪枝法REP。

這裡的誤差是一個新的模型沒有見過的資料集的誤差。

這裡面有個需要具體確定的值,就是這個錯誤率降低多少,我們實行剪裁。

這個值我們根據實際需要去調整即可。

原資料集上錯誤率上升不大,這個也是一個隨機應變的值。

標簽: 錯誤率  決策樹  誤差  決策  節點