理解最小二乘法
何为最小二乘
最小二乘法是十九世纪统计学的主题曲。
从许多方面来看, 它之于统计学就相当于十八世纪的微积分之于数学。
——史蒂芬·史蒂格勒的《The History of Statistics》
最小二乘是一种从一系列测量值中,计算最可能真值的数学方法。
小明真实的体重
在探讨何为最小二乘时,先思考这个问题:
小明是一个健身爱好者,对自己的体重要求非常苛刻,因为这涉及到下一步的训练计划与饮食安排。为了能精确测量出自己的体重,他在市场上购买了9个都号称世界最准的体重秤(小明是个土豪)。
我们知道百分百准确的体重秤是不存在的,这种理想秤只存在于商家的口中。
那么,如何根据这9个比较准确的体重秤,测量出小明的真实体重呢?
可能的计算方案
假设每个体重秤测出小明的体重值分别为 $y_1,y_2,y_3,…,y_9$,那么可能存在以下几个方案:
取平均值 $\frac{y_1+y_2+y_3+…+y_9}9$
取中位数 $medium({y_1,y_2,y_3,…,y_9})$
取极大值或极小值
取几何平均数
取调和平均数
掷色子
看心情
有很多种方案,到底哪一种才是最合理的呢?
法国数学家,阿德里安-马里·勒让德(1752-1833)提出让总的误差的平方最小的 $y$ 就是真值,因为他假设如果测量误差是随机的话,测量值应该围绕真值上下波动。取误差平方和的原因是为了将正负误差都统一用正数值表示。
马里·勒让德假设的体重误差和的数学表达式为:
这是一个二次函数,其导数为 0 时,取得极小值:
进而:
确定了体重的算术平均数的确使得误差的平方和最小,也就是测量的9次体重最有可能围绕所测体重记录的平均值波动。
即测量值的平均值是最可能的真值,也是最好的计算方案。
这也就是最小二乘法的精髓,二乘即平方,最小二乘,即测量值与真值间的误差平方和最小。
这里的测量值是简单的线性函数,其实它可以为一个非线性函数 $f(x)$。
其取极小值时的 $y$ 为最可能的值。
测量误差的正态分布
对于马里·勒让德,数学小王子,高斯(1777-1855)心存怀疑,这个假设如果是错的咋办?
于是他用概率统计的框架对其进行验证。
他首先假设每次测量值 $x_i$ 与真值 $x$ 的测量误差 $϶_i=x-x_i$ 服从一个概率分布,对应的概率密度函数为 $p(϶)$
假设所有的测量构成一个联合概率 $L(x)$ :
根据极大似然估计的思想,联合概率最大的最应该出现,即:
如果最小二乘时对的,那么应该在测量值的平均值 $ \vec x = \frac{x_1+x_2+x_3+…+x_9}9$ 处取得极值,即:
解这个微分方程,得到:
得到正态分布的概率密度函数,也就是说如果马里·勒让德说的“真值回围绕测量值上下波动,那么用最小二乘法得到的值即为最可能的值”是对的,那么测量误差服从正态分布。
而且,这个过程倒推也成立,也就是说如果测量误差服从正态分布,那么最小二乘得到的值即为最可能的值,即:
那么测量误差 $p(϶)$ 是否服从正态分布呢?
这就涉及到概率论里面的中心极限定理
:
样本的平均值约等于总体的平均值。
不管总体是什么分布,样本的平均值总会落到总体的平均周围,且成正态分布。
对于体重测量问题而言,体重值是被测量出来的,体重值的均值就是小明最可能的体重值,而体重值的均值的分布服从正态分布。
因此测量的误差也服从正态分布,因为测量误差会影响到均值的分布。
虽然马里·勒让德提出了最小二乘法,但是高斯从概率论上验证了最小二乘的合理性,真正奠定了最小二乘法的地位。
总结
最小二乘通过测量值与真值间的误差平方和最小,得到最可能的值。
测量值有可能需要用更复杂的函数表达。
高斯验证了对于多次测量而言,测量值的算数平均值就是最可能的值,因为测量误差服从正态分布。
参考: