何为最小二乘

最小二乘法是十九世纪统计学的主题曲。
从许多方面来看, 它之于统计学就相当于十八世纪的微积分之于数学。
——史蒂芬·史蒂格勒的《The History of Statistics》

最小二乘是一种从一系列测量值中,计算最可能真值的数学方法。

小明真实的体重

在探讨何为最小二乘时,先思考这个问题:

小明是一个健身爱好者,对自己的体重要求非常苛刻,因为这涉及到下一步的训练计划与饮食安排。为了能精确测量出自己的体重,他在市场上购买了9个都号称世界最准的体重秤(小明是个土豪)。

我们知道百分百准确的体重秤是不存在的,这种理想秤只存在于商家的口中。

那么,如何根据这9个比较准确的体重秤,测量出小明的真实体重呢?

可能的计算方案

假设每个体重秤测出小明的体重值分别为 $y_1,y_2,y_3,…,y_9$,那么可能存在以下几个方案:

  1. 取平均值 $\frac{y_1+y_2+y_3+…+y_9}9$

  2. 取中位数 $medium({y_1,y_2,y_3,…,y_9})$

  3. 取极大值或极小值

  4. 取几何平均数

  5. 取调和平均数

  6. 掷色子

  7. 看心情

有很多种方案,到底哪一种才是最合理的呢?

法国数学家,阿德里安-马里·勒让德(1752-1833)提出让总的误差的平方最小的 $y$ 就是真值,因为他假设如果测量误差是随机的话,测量值应该围绕真值上下波动。取误差平方和的原因是为了将正负误差都统一用正数值表示。

马里·勒让德假设的体重误差和的数学表达式为:

这是一个二次函数,其导数为 0 时,取得极小值:

进而:

确定了体重的算术平均数的确使得误差的平方和最小,也就是测量的9次体重最有可能围绕所测体重记录的平均值波动。

即测量值的平均值是最可能的真值,也是最好的计算方案。

这也就是最小二乘法的精髓,二乘即平方,最小二乘,即测量值与真值间的误差平方和最小。

这里的测量值是简单的线性函数,其实它可以为一个非线性函数 $f(x)$。

其取极小值时的 $y$ 为最可能的值。

测量误差的正态分布

对于马里·勒让德,数学小王子,高斯(1777-1855)心存怀疑,这个假设如果是错的咋办?

于是他用概率统计的框架对其进行验证。

他首先假设每次测量值 $x_i$ 与真值 $x$ 的测量误差 $϶_i=x-x_i$ 服从一个概率分布,对应的概率密度函数为 $p(϶)$

假设所有的测量构成一个联合概率 $L(x)$ :

根据极大似然估计的思想,联合概率最大的最应该出现,即:

如果最小二乘时对的,那么应该在测量值的平均值 $ \vec x = \frac{x_1+x_2+x_3+…+x_9}9$ 处取得极值,即:

解这个微分方程,得到:

得到正态分布的概率密度函数,也就是说如果马里·勒让德说的“真值回围绕测量值上下波动,那么用最小二乘法得到的值即为最可能的值”是对的,那么测量误差服从正态分布。

而且,这个过程倒推也成立,也就是说如果测量误差服从正态分布,那么最小二乘得到的值即为最可能的值,即:

那么测量误差 $p(϶)$ 是否服从正态分布呢?

这就涉及到概率论里面的中心极限定理

样本的平均值约等于总体的平均值。
不管总体是什么分布,样本的平均值总会落到总体的平均周围,且成正态分布。

对于体重测量问题而言,体重值是被测量出来的,体重值的均值就是小明最可能的体重值,而体重值的均值的分布服从正态分布。

因此测量的误差也服从正态分布,因为测量误差会影响到均值的分布。

虽然马里·勒让德提出了最小二乘法,但是高斯从概率论上验证了最小二乘的合理性,真正奠定了最小二乘法的地位。

总结

  1. 最小二乘通过测量值与真值间的误差平方和最小,得到最可能的值。

  2. 测量值有可能需要用更复杂的函数表达。

  3. 高斯验证了对于多次测量而言,测量值的算数平均值就是最可能的值,因为测量误差服从正态分布。

参考: