学习回归分析篇---之一元线性回归分析算法

如果系统只有一个自变量 x，一个响应变量 y (可以有多个应变量，为方便起见，暂假定只有一个应变量) 的 n 次试验的试验样本具有下表形式：

假设过程是线性的，那么就可以写出数学模型，

y_i= a +bx_i + e_i,(i=1,2,...,n) ------(4.1) 其中 e=(e₁,...,e_n)^T 为观察的误差向量，假定它服从正态分布。这里，a 和 b 是待确定的参数。即，未知数是 a 和 b。求 a 和 b 的过程，使用最小二乘法。俗称 配直线 。因为实验有误差，算出来的 a, b 也是有误差的，所以叫做估计值。以后我们用 β 表示估计值，文献标准写法，应该加一个帽子，因为 HTML 加这个帽子太麻烦，我们省略这个帽子。就是说，我们要配的直线是回归直线 y^= β₀ + β₁ x-----(4.1')

根据最小二乘原理，为了确定 β₀ 和 β₁， n 个观察应使

Q=∑ⁿ_i=1(y_i -y^_i)² 为最小。其中 y^_i 为回归值。所谓回归值就是对应于回归直线上的预报值，根据极值原理，要求 ∂Q/∂β₀= -2∑ⁿ_i=1(y_i-β₀-β₁x_i)=0，------(4.2)

∂Q/∂β₁=-2∑ⁿ_i=1(y_i-β₀-β_ix_i)x_i=0 ------(4.3)

即

∑ⁿ_i=1(y_i-β₀-β ₁x_i)=0， -----(4.4)
∑ⁿ_i=1(y_i-β₀-β_ix_i)x_i=0。 ------(4.5)
由 (4.4) 得
β₀=y^--β₁x^-，------(4.6)
其中
x^-=∑ⁿ_i=1x_i/n,------(4.7)
y^-=∑ⁿ_i=1y_i/n。 ------(4.8)
由 (4.5) 进而得
β₁=(∑ⁿ_i=1x_iy_i-nx^-y^-) / (∑ⁿ_i=1x_i²-nx^-²)。------(4.9)

直接从样本求得估计值 β₁，代入 (4.6) 得到 a 的估计值β₀。 β₀称为回归直线的截距，即回归常数，β₁ 是回归直线的斜率。如果过程机制决定回归直线应过坐标系原点 (0,0)，此时称回归直线无截距，则由 (4.6) 得 β₀ = 0 ，------(4.10) β₁=y^-/x^-.------(4.11)

规定一个记号代表一种算法， (x,y) = ∑ⁿ_i=1 x_i y_i, 称向量 x,y 的内积为 (x,y) 。把 cf(x,y)=nx^-y^- 称为修正量。在不致误会的情况下， cf(x,y) 简记做 cf 。把 L_xy=(x,y)- cf(x,y)------(4.12) 称为差乘和。则 β₁=L_xy/L_xx ------(4.13) 如果变量的均值为0， β₁= (x,y)/(x,x) ------(4.14)

不能配一条直线就算，y 与 x 之间到底是不是线性关系，需要满足统计学条件： r= L_xy/(L_xxL_yy)^1/2------(4.15) 这个关系称为相关系数(correlation coefficient)。相关系数的最大值为 1，称为正相关，最小值为 -1，负相关。绝对值 |r | 越接近于 1，y 与 x 之间的线性关系越好；离 1 越远，其线性关系越差。当 r=0 ，线性关系不存在或说没有关系。用 r 来衡量 y 与 x 之间是否有线性关系， r 需要达到一个起码值（临界值），相关系数临界值记作 r_α(n-2) 。它依赖于自由度 n-2 和置信系数 α 两个参数。这个临界值可以查统计学相关系数临界值表。也可以由近似计算得到，在我的计算程序中，由近似计算提供。如果 r< r_α(n-2) ------(4.16) 就说 y 与 x 之间以置信水平 α 相关，否则称以置信水平 α 不相关。相关不相关，就看 α 与 1 之间的差距的大小。 1-α 被认为是置信概率。有时简单地记作 P=1-α 并称为 P 值。P 值太小，置信概率太低。在统计学上没有意义。说在统计学意义上不相关。由此，当 P 接近但不等于 1，我们说 y 与 x 之间是高相关的，当 P 接近但不等于 0，弱相关。

调整 α 使 r_α(n-2) 从右侧接近 r ，用一个参数 α 或 P 判断 y 与 x 之间的线性相关关系具有同等效力。自由度不同的相关性也可以比较。“门槛”是人定的，统计学上定 P=0.95。具体定多少，依工程具体情况确定。当目的是认定事物之间的相关性时，为防止误判断，把 α 取得小一些，即 P 取得大一些。当目的是认定事物之间的无关性时，标准放得宽些，防止“证据不足”。当把安全性放在第一位，把警戒指数降低，报警频率提高；要想降低报警频率，就把警戒指数提高，到有更大把握时才发警报。当观察误差比较大时，有时把 α 定得比较大。当 α>0.3, p<0.7 以后，相关性较弱，点的分布散乱，通常认为不足以证明其相关。统计学以 0.05 为界，若 α<0.05, p>0.95 说“在统计学意义上显著”，若 α<0.01, P>0.99 则说“在统计学意义上非常显著”。这是诉讼判决时用的。在科学研究中，我主张放松，在化工过程中，我使用 p=0.75。在观察过程中，p=0.6 也不放过。最后认定依据两个原则：统计学上的 α=0.05 原则和实践原则。所谓实践原则，就是反复实践认为某个判断是正确的，哪怕没有达到 p=0.75 的标准，也作出判定。在化学实验中，执行 0.05 准则太高，会丢失很多优化机会或者丧失许多判断机会。

平面上矩形区域中的一组点，点的纵横坐标分别组成两个向量。这两个向量的相关系数 r 或置信系数 α 反映这一组点的分布均衡性状况。分布均衡分散，则相关系数趋向于 0，置信系数 α 趋向于 1, P 趋向于 0。相反，相关系数的绝对值趋向于 1，置信系数 α 趋向于 0，P 趋向于 1，点子分布成一直线。如下图左图点子分布均衡分散，相关系数 r= 0.2，右图点子成一直线，r=1。

图 4.1. 6个点的不同分布与相关系数之间的关系

n 个观察值对其平均值的偏差平方和可以分解为 S_总=∑ⁿ_i=1 (y_i-y^-)² =∑ⁿ_i=1[(y_i - y^_i)+( y^_i-y^-)]² =∑ⁿ_i=1[(y_i - y^_i)²+(y^_i-y^-)²] =S_剩+S_回. ------(4.17) 其中， S_回=∑ⁿ_i=1(y^_i-y^-)² 称为回归平方和，即自变量的变化引起因变量的变化。 S_剩 =∑ⁿ_i=1(y_i - y^_i)² 称为剩余平方和，由实验误差所引起。

根据回归分析理论，回归系数 β 的波动不仅与误差的方差σ² 有关，而且还与观察点的分布范围大小有关。 x_i 分布越宽，则 β 的波动越小，即对 β 的估计越精确。β 的波动还与试验样本的大小有关，n 越大，估计越精确。

在什么地方取样，样本就是那个地方的信息，它不代表其他地方的信息。基于局部的回归结果，除了机理模型外不能向实验区域之外延拓，不能预报实验区域以外的值。可以尝试去预报，未经检验证实无效，那是高风险的。

参考

茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》,华东师范大学出版社,上海,1981
T.Hastie,R.Tibshirani,J.Friedman, The Elements of Statistical learning, Springer-Verlag,New York,2001
J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),1995

学习回归分析篇---之一元线性回归分析算法

参 考

参考