特征归一化特性及其数学原理推导

买了本《百面机器学习》看着玩，虽然已经毕业了，机器学习还是放不下吧，希望以后新的机会出现能够及时抓住。书中第一章「特征工程」的“01 特征归一化”（第002-003页）提到：

对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法主要有以下两种。
线性函数归一化（Min-Max Scaling）。它对原始数据进行线性变换，使结果映射到 $[0, 1]$ 的范围，实现对原始数据的等比缩放。归一化公式如下：
$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$
其中， $X$ 为原始数据， $X_{m a x}$ 、 $X_{m i n}$ 分别为数据最大值和最小值。
零均值归一化（Z-Score Normalization）。它会将原始数据映射到均值为0、标准差为1的分布上。具体来说，假设原始特征的均值为μ、标准差为σ，那么归一化公式定义为：
$z = \frac{x - μ}{σ}$

我平时使用的全是线性函数归一化……因为比较简单也好理解。零均值归一化看到过，但是不知道该用在哪里，接下来仔细地分析一下相关的内容，以及感兴趣的数学知识。

为什么需要对数值类型的特征做归一化？

这是《百面》提出的问题。官方解答是通过一个形象的随机梯度下降例子：

假设有两种数值型特征， $x_{1}$ 的取值范围为 $[0, 10]$ ， $x_{2}$ 的取值范围为 $[0, 3]$ ，于是可以构造一个目标函数符合图1.1(a)中的等值图。在学习速率相同的情况下， $x_{1}$ 的更新速度会大于 $x_{2}$ ，需要较多的迭代才能找到最优解。如果将 $x_{1}$ 和 $x_{2}$ 归一化到相同的数值区间后，优化目标的等值图会变成图1.1(b)中的圆形， $x_{1}$ 和 $x_{2}$ 的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。

用人话来讲就是，归一化使得特征的变化更容易用统一标准去衡量了。

这个例子其实来源于斯坦福机器学习公开课的一节，课题是我们想要去预测房价，假设存在这样一个函数：

y = θ_{1} x_{1} + θ_{2} x_{2}

注意这里的 $x_{1}$ 是真实的变量，而《百面》中提到的 $x_{1}$ 是这里的参数 $θ_{1}$ （估计是为了避嫌更换了名称），把 $θ$ 称作参数更符合思维习惯。

这个函数里的 $y$ 是预测房价， $x_{1}$ 是房间大小（1~100平方米）， $x_{2}$ 是房间数量（1~4间）。我们都知道房间越多、房间越大，房子越值钱，但不知道具体“50平方米2间房”和“60平方米1间房”哪个更值钱。所以现在有一批[房间大小, 房间数量, 房价]的训练数据，我们用这批数据去求得使得大部分数据都符合这个公式的参数 $θ_{1}$ 、 $θ_{2}$ ，不就得到房价预测模型了吗？以后输入房间大小、房间数量，代入公式，就得到了预测房价。那么“大部分都符合”这个标准用数学量化出来就是损失函数最小。命题转变为了求解使得损失函数最小的参数 $θ_{1}$ 、 $θ_{2}$ 。

损失函数很容易定义为预测房价和真实房价差值的平方（为了取正数）：

J (θ_{1}, θ_{2}) = {(θ_{1} x_{1} + θ_{2} x_{2} - y_{r e a l})}^{2}

损失函数值越小，说明预测房价和真实房价的差距越小，预测越精准。

可以想象的是，当没有归一化的时候， $x_{1} = 50$ ， $x_{2} = 2$ ， $y_{r e a l} = 100$ ，我们可以取 $1 * 50 + 25 * 2 - 100$ ，也可以取 $0.2 * 50 + 45 * 2 - 100$ ，他们的值都是 $0$ ，然而 $θ_{1}$ 的取值范围波动会小一些， $θ_{2}$ 的取值范围波动巨大，如果画出等值线，就会是 $θ_{1}$ 进行缓慢地变化、 $θ_{2}$ 剧烈变化的椭圆；当归一化之后， $x 1 = 0.5$ ， $x 2 = 0.5$ ， $y r e a l = 1$ ，那么取值 $1 * 0.5 + 1 * 0.5 - 1$ ，或者 $0 * 0.5 + 2 * 0.5 - 1$ ，会发现参数变化更加均匀一些了，等值线（等高线）也就越趋近于圆。

所以，用原始的量纲不同、取值范围差异较大的两个特征，去进行梯度下降寻找最优解，未归一化的话这个圆会变得很尖，归一化了圆就会更圆，但程序不知道啊，它会通过梯度下降去迭代，未归一化的数据更容易产生“之”字型走法来迭代寻找最优解，归一化的数据更容易走直线快速找到最优解。

但这只是讲了归一化的好处——提升模型收敛速度，并没有讲不归一化会发生什么。不归一化的最大坏处在于——数值小的特征变化失去意义，举个例子（我以前就干过这样的事……）：

我们已知平面上有很多点 $(x, y)$ ，现在取一个点 $(x_{0}, y_{0}) = (0, 0)$ ，找出和它最近的2个点。 $x$ 的取值范围是 $[- 1, 1]$ ，y的取值范围是 $[- 1000, 1000]$

text

(0.1,100)
(0.2,300)
(0.2,100)
(0.3,300)

我们会发现，当计算距离的时候， $y$ 的取值很大程度地影响了距离的值， $y$ 稍微一变化，距离就变化很大。 $x$ 重要吗？根本不重要！完全和已知在纵轴上， $y_{0} = 0$ ，寻找最近的2个点的命题几乎一样：

text

y1=100
y2=300
y3=100
y4=300

最近的仍然是 $y_{1}$ 、 $y_{3}$ ，哪怕你有一个 $(x_{5}, y_{5}) = (1, 300)$ ， $x$ 变化再剧烈，最近邻也轮不到你。效果就是， $x$ 这个特征似乎消失了。

所以，归一化在维数非常多的时候，可以防止某一维或某几维对数据影响过大。

归一化和标准化的取舍

虽然可以统称为归一化，但是我更愿意称线性函数归一化（Min-Max Scaling）为极大极小归一化（Min-Max Normalization），称零均值归一化（Z-Score Normalization）为零均值标准化（Z-Score Standardization）。

因为极大极小归一化的方法是，根据极值，将所有内部值压缩到 $[0, 1]$ 区间；而零均值标准化做的是，根据所有数值，将分布转为标准正态分布，均值为0，方差为1，取值 $[- 1, 1]$ 。在实际使用过程中深有体会，当用极大极小归一化时，如果不是已经知道极值（比如0~255），一旦有新的数据（比如Haar特征）加入，根据固定的极值（当前数据最大最小值）去压缩，就可能产生超过1或者小于0的特征值，但是在处理上会方便许多；采用零均值标准化的话，由于可能取到负值，而且新进来的数据依然可能越界，其实都不好使……

那么，应该如何取舍归一化和标准化呢？

如果对输出结果有要求，或者数据比较稳定，用归一化。
如果存在一些异常值和噪音，数据符合正态分布，用标准化。
如果涉及距离度量计算相似性（比如KNN、Kmeans聚类）、或者PCA，用标准化。

前面两个都好理解，数据稳定，用极值方便；有异常或噪音，用标准化保证整体数值分布。我们来仔细分析一下第三点，首先推导零均值标准化原理。

正态分布的期望从定义开始推导

正态分布也叫高斯分布，期望有很多种推导方式，比如极坐标这种很秀的推导方法，我们只记最简单的Γ函数推导就好了。

1) 推导 $E (x)$ 到合适的地方

已知一般正态分布：

X \sim N (μ, σ^{2})

其概率密度函数为：

f (x) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}

根据期望的定义有：

\begin{aligned} E (X) & = \int_{- \infty}^{+ \infty} x f (x) d x \\ = \int_{- \infty}^{+ \infty} x \frac{1}{σ \sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}} d x \end{aligned}

换元积分，令：

z = \frac{x - μ}{σ}, x = σ z + μ

则 $E (x)$ 可以改写为：

\begin{aligned} E (X) & = \int_{- \infty}^{+ \infty} (σ z + μ) \frac{1}{σ \sqrt{2 π}} e^{- \frac{z^{2}}{2}} d (σ z + μ) \\ = \int_{- \infty}^{+ \infty} (σ z + μ) \frac{1}{\sqrt{2 π}} e^{- \frac{z^{2}}{2}} d z \\ = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{+ \infty} (σ z + μ) e^{- \frac{z^{2}}{2}} d z \\ = \frac{σ}{\sqrt{2 π}} \int_{- \infty}^{+ \infty} z e^{- \frac{z^{2}}{2}} d z + \frac{μ}{\sqrt{2 π}} \int_{- \infty}^{+ \infty} e^{- \frac{z^{2}}{2}} d z \end{aligned}

左式为奇函数在对称区间的积分，积分为0，而右边是偶函数在对称区间的积分，积分为2倍半区间积分，于是：

E (X) = 0 + \frac{2 μ}{\sqrt{2 π}} \int_{0}^{+ \infty} e^{- \frac{z^{2}}{2}} d z

2) 推导 $Γ$ 函数的特性

注意到含参变量的以无穷乘积函数定义的反常积分 $Γ$ 函数定义为：

Γ (s) = \int_{0}^{+ \infty} x^{s - 1} e^{- x} d x, s > 0

用分部积分法（其公式不再继续往下证明）有：

\begin{aligned} \int u (x) v^{'} (x) d x & = u (x) v (x) - \int u^{'} (x) v (x) d x \\ \int_{0}^{A} x^{s} e^{- x} d x & = - x^{s} e^{- x} |_{0}^{A} + s \int_{0}^{A} x^{s - 1} e^{- x} d x \\ = - A^{s} e^{- A} + s \int_{0}^{A} x^{s - 1} e^{- x} d x \end{aligned}

那么，令：

A \to + \infty

得到 $Γ$ 函数的递推公式及其推论：

\begin{aligned} Γ (s + 1) & = s Γ (s) \\ Γ (1) & = 1 \\ Γ (\frac{1}{2}) & = \sqrt{π} \end{aligned}

3) 利用 $Γ$ 函数的特性

所以，对 $E (X)$ 再次换元：

\begin{aligned} t & = \frac{z^{2}}{2} \\ z^{2} & = 2 t \\ z & = \sqrt{2 t} \\ d z & = \frac{\sqrt{2}}{2 \sqrt{t}} d t \end{aligned}

有：

\begin{aligned} E (X) & = 0 + \frac{2 μ}{\sqrt{2 π}} \int_{0}^{+ \infty} e^{- t} \frac{\sqrt{2}}{2 \sqrt{t}} d t \\ = \frac{μ}{\sqrt{π}} \int_{0}^{+ \infty} t^{- \frac{1}{2}} e^{- t} d t \\ = \frac{μ}{\sqrt{π}} \int_{0}^{+ \infty} t^{\frac{1}{2} - 1} e^{- t} d t \\ = \frac{μ}{\sqrt{π}} Γ (\frac{1}{2}) \\ = μ \end{aligned}

正态分布的方差从定义开始推导

1) 推导 $D (x)$ 到合适的地方

\begin{aligned} D (X) & = \int_{- \infty}^{+ \infty} (x - μ)^{2} f (x) d x \\ = \int_{- \infty}^{+ \infty} (x - μ)^{2} \frac{1}{σ \sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}} d x \end{aligned}

同样地，进行换元，令：

z = \frac{x - μ}{σ}, x = σ z + μ

利用分部积分法，有：

\begin{aligned} D (X) & = \int_{- \infty}^{+ \infty} σ^{2} z^{2} \frac{1}{\sqrt{2 π}} e^{- \frac{z^{2}}{2}} d z \\ = \frac{σ^{2}}{\sqrt{2 π}} \int_{- \infty}^{+ \infty} z^{2} e^{- \frac{z^{2}}{2}} d z \\ = \frac{σ^{2}}{\sqrt{2 π}} \int_{- \infty}^{+ \infty} z \cdot (z e^{- \frac{z^{2}}{2}}) d z \\ = \frac{σ^{2}}{\sqrt{2 π}} ({z \cdot (- e^{- \frac{z^{2}}{2}}) |}_{- \infty}^{+ \infty} - \int_{- \infty}^{+ \infty} (- e^{- \frac{z^{2}}{2}}) d z) \\ = \frac{σ^{2}}{\sqrt{2 π}} ({- z e^{- \frac{z^{2}}{2}} |}_{- \infty}^{+ \infty} + \int_{- \infty}^{+ \infty} e^{- \frac{z^{2}}{2}} d z) \end{aligned}

注意这里分部积分法的使用，是拆开了前面的平方，组合后面的。而且没有用网上所谓的“注意到”：

{(- z e^{- \frac{z^{2}}{2}})}^{'} = - z e^{- \frac{z^{2}}{2}} + z^{2} e^{- \frac{z^{2}}{2}}

虽然和分部积分法原理一样，但是除非非常熟练，看到这个积分就能想到这个导数，否则以我的视角根本不可能去“注意到”。还是分部积分法靠谱一些。

2) 利用 $Γ$ 函数特性

采用的推导方案

\begin{aligned} D (X) & = \frac{σ^{2}}{\sqrt{2 π}} (0 + 2 \cdot \frac{\sqrt{2}}{2} \cdot \sqrt{π}) \\ = \frac{σ^{2}}{\sqrt{2 π}} \cdot \sqrt{2 π} \\ = σ^{2} \end{aligned}

方案2: 利用方差和期望的关系

第二种推导方案是利用：

D (X) = E (X^{2}) - E (X)^{2}

来进行推导。

方案3: 利用洛必达

第三种推导方案是，不使用奇函数特性，使用洛必达法则推导；不使用 $Γ$ 函数特性，使用双重积分+极坐标推导。

方案4: 利用 $Γ$ 函数特性

第四种推导方案是，不使用分部积分法，使用一种新奇的换元方法+ $Γ$ 函数特性：

t = z^{2}

这里不再赘述。

为什么零均值标准化能使得均值为0方差为1

即需要证明：若 $X \sim N (μ, σ)$ ，则 $Z = (X - μ / σ) \sim N (0, 1)$

我们知道，分布函数 $F (x)$ 、概率密度 $f (x)$ 存在这样的关系：

\begin{aligned} F (x) & = P (X \leq x) = \int_{- \infty}^{x} f (x) d x, - \infty < x < + \infty \\ F^{'} (x) & = f (x) \end{aligned}

那么：

\begin{aligned} F_{Z} (z) & = P (Z < z) \\ = P (\frac{X - μ}{σ} < z) \\ = P (X < σ z + μ) \\ = \int_{- \infty}^{σ z + μ} \frac{1}{σ \sqrt{2 π}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}} d x \\ \overset{令 x = σ v + μ}{=} \int_{- \infty}^{z} \frac{1}{σ \sqrt{2 π}} e^{- \frac{(σ v + μ - μ)^{2}}{2 σ^{2}}} σ d v \\ = \int_{- \infty}^{z} \frac{1}{\sqrt{2 π}} e^{- \frac{v^{2}}{2}} d v \end{aligned}

所以， $Z = (X - μ / σ) \sim N (0, 1)$

为什么零均值标准化适合于距离度量、PCA

PCA原理不再介绍，我们知道PCA的核心就是方差与协方差。原始特征样本协方差为（N-1是无偏估计，'表示区分不是表示导数）：

σ_{x y} = \frac{1}{N - 1} \sum_{i = 1}^{N} (x_{i} - \bar{x}) (y_{i} - \bar{y})

那么，使用零均值标准化：

\begin{aligned} x^{'} & = \frac{x - \bar{x}}{σ_{x}}, {\bar{x}}^{'} = 0 \\ y^{'} & = \frac{y - \bar{y}}{σ_{y}}, {\bar{y}}^{'} = 0 \end{aligned}

\begin{aligned} σ_{x y}^{'} & = \frac{1}{N - 1} \sum_{i = 1}^{N} (x_{i}^{'} - {\bar{x}}^{'}) (y_{i}^{'} - {\bar{x}}^{'}) \\ = \frac{1}{N - 1} \sum_{i = 1}^{N} (x_{i}^{'} - 0) (y_{i}^{'} - 0) \\ = \frac{1}{N - 1} \sum_{i = 1}^{N} (\frac{x_{i} - \bar{x}}{σ_{x}}) (\frac{y_{i} - \bar{y}}{σ_{y}}) \\ = \frac{1}{(N - 1) σ_{x} σ_{y}} \sum_{i = 1}^{N} (x_{i} - \bar{x}) (y_{i} - \bar{y}) \\ = \frac{σ_{x y}}{σ_{x} σ_{y}} \end{aligned}

而使用极大极小归一化：

\begin{aligned} x^{″} & = c_{x} x + m_{x} \\ y^{″} & = c_{y} y + m_{y} \end{aligned}

\begin{aligned} σ_{x y}^{″} & = \frac{1}{N - 1} \sum_{i = 1}^{N} (x_{i}^{″} - \overset{―}{x_{i}^{″}}) (y_{i}^{″} - \overset{―}{x_{i}^{″}}) \\ = \frac{1}{N - 1} \sum_{i = 1}^{N} (c_{x} x_{i} - c_{x} \overset{―}{x_{i}}) (c_{y} y_{i} - c_{y} \overset{―}{y_{i}}) \\ = c_{x} c_{y} σ_{x y} \end{aligned}

极大极小归一化使得协方差产生了倍数值缩放，无法消除量纲的影响；而零均值标准化对方差进行了归一化，使得量纲不会对协方差的计算产生任何影响。

所以，如果需要每个特征值都对整体归一化产生一定影响的话（和分布相关的话），选择零均值归一化。

特征归一化的使用范围

《百面》上说：

在实际应用中，通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用，以C4.5决策树为例，决策树在进行节点分裂时主要依据数据集 $D$ 关于特征 $x$ 的信息增益比，而信息增益比跟特征是否进行归一化是无关的，因为归一化并不会改变样本在特征 $x$ 上的信息增益。

但其实，看一下C4.5的信息增益比公式，样本集合 $D$ ，类别数 $N$ ，某类样本子集 $C_{i}$ ， $D_{i}$ 中属于第n类的子集 $D_{i n}$ ，特征取值数 $K$ ， $| |$ 表示取元素个数，某特征 $X$ ，其信息增益比为：

\begin{aligned} GainRatio (D, X) & = \frac{Gain (D, X)}{Split (D, X)} \\ = \frac{H (D) - H (D | X)}{Split (D, X)} \\ = \frac{- \sum_{i = 1}^{N} \frac{| C_{i} |}{| D |} l o g_{2} (\frac{| C_{i} |}{| D |}) - \sum_{i = 1}^{K} \frac{| D_{i} |}{| D |} (- \sum_{i = 1}^{N} \frac{| D_{i n} |}{| D_{i} |} l o g_{2} (\frac{| D_{i n} |}{| D_{i} |}))}{- \sum_{i = 1}^{K} \frac{| D_{i} |}{| D |} l o g_{2} (\frac{| D_{i} |}{| D |})} \end{aligned}

信息增益比相当于帮决策树进行了归一化。而且其实，决策树使用了归一化，也不会有太大的问题。

总结

除了极大极小归一化、零均值归一化，还有一些非线性的归一化，比如 $l o g_{10}$ 、 $l o g_{2}$ 、 $t a n$ 等。归一化的好处真的非常之大，是机器学习入门必备的概念。

这里通过一些数学推导把以前原理模糊的概念都理解透彻了，由于涉及到较多的数学，如有错误还望指正。

特征归一化特性及其数学原理推导

为什么需要对数值类型的特征做归一化？ ​

归一化和标准化的取舍 ​

正态分布的期望从定义开始推导 ​

1) 推导E(x)到合适的地方 ​

2) 推导Γ函数的特性 ​

3) 利用Γ函数的特性 ​

正态分布的方差从定义开始推导 ​

1) 推导D(x)到合适的地方 ​

2) 利用Γ函数特性 ​

采用的推导方案 ​

方案2: 利用方差和期望的关系 ​

方案3: 利用洛必达 ​

方案4: 利用Γ函数特性 ​

为什么零均值标准化能使得均值为0方差为1 ​

为什么零均值标准化适合于距离度量、PCA ​

特征归一化的使用范围 ​

总结 ​