您當前的位置:首頁 > 攝影

資料清洗的主要手段有哪些?

作者:由 者也 發表于 攝影時間:2022-10-18

資料清洗的主要手段有哪些?者也2022-10-18 06:17:10

資料清洗是清洗髒資料,是指在資料檔案中發現和糾正可識別錯誤的最後一個程式,包括檢查資料一致性、處理無效值和缺失值。哪些資料被稱為髒資料?例如,需要從資料倉庫中提取一些資料,但由於資料倉庫通常是針對某一主題的資料集合,這些資料是從多個業務系統中提取的,因此不可避免地包含不完整的資料。錯誤的資料非常重複,這些資料被稱為髒資料。我們需要藉助工具,按照一定的規則清理這些髒資料,以確保後續分析結果的準確性。這個過程是資料清洗。

常用的資料清洗的手段有:丟棄、補全、不處理和真值轉換。

1、丟棄部分資料

丟棄,即直接刪除有缺失值的行記錄或列欄位,以減少趨勢資料記錄對整體資料的影響,從而提高資料的準確性。但這種方法並不適用於任何場景,因為丟失意味著資料特徵會減少,以下兩個場景不應該使用丟棄的方法:資料集中存在大量資料記錄不完整和資料記錄缺失值明顯的資料分佈規則或特徵。

2、補全缺失的資料

與丟棄相比,補全是一種更常用的缺失值處理方法,透過某種方法補充缺失的資料,形成完整的資料記錄對後續的資料處理、分析和建模非常重要。

3、不處理資料

不處理是指在資料預處理階段,不處理缺失值的資料記錄。這主要取決於後期的資料分析和建模應用。許多模型對缺失值有容忍度或靈活的處理方法,因此在預處理階段不能進行處理。

4、真值轉換法

承認缺失值的存在,並將資料缺失作為資料分佈規律的一部分,將變數的實際值和缺失作為輸入維度參與後續資料處理和模型計算。然而,變數的實際值可以作為變數值參與模型計算,而缺失值通常不能參與計算,因此需要轉換缺失值的真實值。

標簽: 資料  缺失  丟棄  處理  記錄