無量綱化處理方法的介紹

作者：由靜水流深發表于遊戲時間：2022-08-16

①最大值化

最大值化，其目的是讓最大值作為參照標準，所有的資料全部除以最大值。用公式表示如下：

$y_{i j}=\frac{x_{i j}}{M_{j}}, M_{j}=\max \left(x_{1 j}, x_{2 j}, \ldots, x_{m j}\right)$

即以最大值作為單位，全部資料全部去除以最大值。需要特別說明一點是，此種處理方式時一般都是要求資料全部大於0，否則可能就不適合用此種量綱方式。

②最小值化

最小值化，其目的是讓最小值作為參照標準，所有的資料全部除以最小值。用公式表示如下：

$y_{i j}=\frac{x_{i j}}{m_{j}}, m_{j}=\min \left(x_{1 j}, x_{2 j}, \ldots, x_{m j}\right)$

即以最小值作為單位，全部資料全部去除以最小值。需要特別說明一點是，此種處理方式時一般都是要求資料全部大於0，否則可能就不適合用此種量綱方式。

③均值化

均值化處理以平均值作為單位，全部資料均去除以平均值。用公式表示如下：

$y_{i j}=\frac{x_{i j}}{\overline{x_{j}}}, \overline{x_{j}}=\frac{1}{m} \sum_{i=1}^{m} x_{i j}$

均值化常應用於綜合評價，比如灰色關聯分析。需要特別說明一點是，這種方式有個前提，即所有的資料均應該大於0，否則不適合用這種量綱方式。

④標準化

標準化是一種最為常見的量綱化處理方式。其計算公式為：

$y_{i j}=\frac{x_{i j}-\bar{x}_{j}}{s_{j}}, s_{j}$

為樣本標準差

這種處理方式對資料進行了壓縮大小處理，同時還讓資料具有特殊特徵（平均值為0標準差為1），即資料的平均值一定為0，標準差一定是1。在很多研究演算法中均有使用標準化處理，比如聚類分析前一般需要進行標準化處理，也或者因子分析時預設會對資料標準化處理。

⑤歸一化

a.線性歸一化

線性歸一化的目的是讓資料壓縮在0到1的範圍內，包括兩個邊界數字0和數字1，當某資料剛好為最小值時，則歸一化後為0；如果資料剛好為最大值時，則歸一化後為1。用公式表示如下：

$y=\frac{x-\min Value}{\max Value-\min Value}$

其中，x是歸一化之前的資料，y是歸一化之後的資料，maxValue和minValue分別對應這一組資料中的最大值和最小值。範圍：［0，1］。線性歸一化模型適用於把原來資料等比例縮放限定在某一範圍內，在不涉及距離度量和協方差計算的時候使用。

b.對數歸一化

對數歸一化是非線性的，其優勢在於可以規避線性歸一化最大值過大的影響，適合大部分數值與最大值不在同一數量級的資料。對數歸一化的目的是讓資料壓縮在0到1的範圍內，用公式表示如下：

$y=\log \left( x \right)$

其中，x，y分別對應歸一化前後資料。適用於所有x值均大於1的資料序列。

c.反餘切歸一化

反餘切歸一化的目的是讓資料壓縮在0到1的範圍內，用公式表示如下：

$y=\frac{a\tan \left( x \right)*2}{\pi }$

其中，x，y分別對應歸一化前後資料。反餘切函式的範圍在［0，π/2］，因此對反餘切得到的值乘2除π，把範圍控制在［0，1］。

標簽：歸一化資料最大值最小值處理

猜你喜歡