何为最小二乘

最小二乘法是十九世纪统计学的主题曲。
从许多方面来看, 它之于统计学就相当于十八世纪的微积分之于数学。
——史蒂芬·史蒂格勒的《The History of Statistics》

最小二乘是一种从一系列测量值中，计算最可能真值的数学方法。

小明真实的体重

在探讨何为最小二乘时，先思考这个问题：

小明是一个健身爱好者，对自己的体重要求非常苛刻，因为这涉及到下一步的训练计划与饮食安排。为了能精确测量出自己的体重，他在市场上购买了9个都号称世界最准的体重秤（小明是个土豪）。

我们知道百分百准确的体重秤是不存在的，这种理想秤只存在于商家的口中。

那么，如何根据这9个比较准确的体重秤，测量出小明的真实体重呢？

可能的计算方案

假设每个体重秤测出小明的体重值分别为 $y_1,y_2,y_3,…,y_9$，那么可能存在以下几个方案：

取平均值 $\frac{y_1+y_2+y_3+…+y_9}9$
取中位数 $medium({y_1,y_2,y_3,…,y_9})$
取极大值或极小值
取几何平均数
取调和平均数
掷色子
看心情

有很多种方案，到底哪一种才是最合理的呢？

法国数学家，阿德里安-马里·勒让德（1752－1833）提出让总的误差的平方最小的 $y$ 就是真值，因为他假设如果测量误差是随机的话，测量值应该围绕真值上下波动。取误差平方和的原因是为了将正负误差都统一用正数值表示。

马里·勒让德假设的体重误差和的数学表达式为：

$S_{϶^2}=\overset9{\underset{i=1}{min(\sum\left(y-y_i\right)^2)}}$

这是一个二次函数，其导数为 0 时，取得极小值：

$\begin{array}{l}\frac d{dy}S_{϶^2}=\frac{\displaystyle d}{\displaystyle dy}\sum\left(y-y_i\right)^2=2\sum\left(y-y_i\right)\\=2\left(\left(y-y_1\right)+\left(y-y_2\right)+...+\left(y-y_9\right)\right)=0\end{array}$

进而：

$9y=y_1+y_2+y_3+...+y_9\;\;\Rightarrow y=\frac{y_1+y_2+y_3+...+y_9\;}9$

确定了体重的算术平均数的确使得误差的平方和最小，也就是测量的9次体重最有可能围绕所测体重记录的平均值波动。

即测量值的平均值是最可能的真值，也是最好的计算方案。

这也就是最小二乘法的精髓，二乘即平方，最小二乘，即测量值与真值间的误差平方和最小。

这里的测量值是简单的线性函数，其实它可以为一个非线性函数 $f(x)$。

$S_{϶^2}=min(\sum\left(y-f(x)\right)^2)$

其取极小值时的 $y$ 为最可能的值。

测量误差的正态分布

对于马里·勒让德，数学小王子，高斯（1777－1855）心存怀疑，这个假设如果是错的咋办？

于是他用概率统计的框架对其进行验证。

他首先假设每次测量值 $x_i$ 与真值 $x$ 的测量误差 $϶_i=x-x_i$ 服从一个概率分布，对应的概率密度函数为 $p(϶)$

假设所有的测量构成一个联合概率 $L(x)$ ：

$\begin{array}{l}L(x)=p(\backepsilon_1)p(\backepsilon_2)p(\backepsilon_3)...p(\backepsilon_9)\\=p(x-x_1)p(x-x_2)p(x-x_3)...p(x-x_9)\end{array}$

根据极大似然估计的思想，联合概率最大的最应该出现，即：

$\frac d{dx}L(x)=0$

如果最小二乘时对的，那么应该在测量值的平均值 $ \vec x = \frac{x_1+x_2+x_3+…+x_9}9$ 处取得极值，即：

$\frac d{dx}L(x)\vert_{x=\vec x}=0$

解这个微分方程，得到：

$p(϶)=\frac1{\sigma\sqrt{2\pi}}e^{-\frac{϶^2}{2\sigma^2}}$

得到正态分布的概率密度函数，也就是说如果马里·勒让德说的“真值回围绕测量值上下波动，那么用最小二乘法得到的值即为最可能的值”是对的，那么测量误差服从正态分布。

而且，这个过程倒推也成立，也就是说如果测量误差服从正态分布，那么最小二乘得到的值即为最可能的值，即：

$x=\vec x\Leftrightarrow p(϶)=\frac1{\sigma\sqrt{2\pi}}e^{-\frac{϶^2}{2\sigma^2}}$

那么测量误差 $p(϶)$ 是否服从正态分布呢？

这就涉及到概率论里面的中心极限定理：

样本的平均值约等于总体的平均值。
不管总体是什么分布，样本的平均值总会落到总体的平均周围，且成正态分布。

对于体重测量问题而言，体重值是被测量出来的，体重值的均值就是小明最可能的体重值，而体重值的均值的分布服从正态分布。

因此测量的误差也服从正态分布，因为测量误差会影响到均值的分布。

虽然马里·勒让德提出了最小二乘法，但是高斯从概率论上验证了最小二乘的合理性，真正奠定了最小二乘法的地位。

总结

最小二乘通过测量值与真值间的误差平方和最小，得到最可能的值。
测量值有可能需要用更复杂的函数表达。
高斯验证了对于多次测量而言，测量值的算数平均值就是最可能的值，因为测量误差服从正态分布。

参考：