学习回归分析篇---之一元线性回归分析算法

in #cn6 years ago

如果系统只有一个自变量 x,一个响应变量 y (可以有多个应变量,为方便起见,暂假定只有一个应变量) 的 n 次试验的试验样本具有下表形式:

假设过程是线性的,那么就可以写出数学模型,

yi= a +bxi + ei,(i=1,2,...,n) ------(4.1)
其中 e=(e1,...,en)T 为观察的误差向量,假定它服从正态分布。 这里,a 和 b 是待确定的参数。即,未知数是 a 和 b。求 a 和 b 的过程,使用最小二乘法。俗称 配直线 。 因为实验有误差,算出来的 a, b 也是有误差的,所以叫做估计值。 以后我们用 β 表示估计值,文献标准写法,应该加一个帽子,因为 HTML 加这个帽子太麻烦,我们省略这个帽子。 就是说,我们要配的直线是回归直线
y^= β0 + β1 x-----(4.1')

根据最小二乘原理,为了确定 β0 和 β1, n 个观察应使

Q=∑ni=1(yi -y^i)2
为最小。其中 y^i 为回归值。所谓回归值就是对应于回归直线上的预报值, 根据极值原理,要求
∂Q/∂β0= -2∑ni=1(yi01xi)=0,------(4.2)

∂Q/∂β1=-2∑ni=1(yi0ixi)xi=0 ------(4.3)

ni=1(yi01xi)=0, -----(4.4)

ni=1(yi0ixi)xi=0。 ------(4.5)

由 (4.4) 得
β0=y-1x-,------(4.6)

其中
x-=∑ni=1xi/n,------(4.7)

y-=∑ni=1yi/n。 ------(4.8)

由 (4.5) 进而得
β1=(∑ni=1xiyi-nx-y-) / (∑ni=1xi2-nx-2)。------(4.9)

直接从样本求得估计值 β1,代入 (4.6) 得到 a 的估计值β0。 β0称为回归直线的截距,即回归常数,β1 是回归直线的斜率。 如果过程机制决定回归直线应过坐标系原点 (0,0),此时称回归直线无截距,则由 (4.6) 得
β0 = 0 ,------(4.10)
β1=y-/x-.------(4.11)

规定一个记号代表一种算法,
(x,y) = ∑ni=1 xi yi,
称向量 x,y 的内积为 (x,y) 。把 cf(x,y)=nx-y- 称为修正量。 在不致误会的情况下, cf(x,y) 简记做 cf 。把
Lxy=(x,y)- cf(x,y)------(4.12)
称为差乘和。则
β1=Lxy/Lxx ------(4.13)
如果变量的均值为0,
β1= (x,y)/(x,x) ------(4.14)

不能配一条直线就算,y 与 x 之间到底是不是线性关系,需要满足统计学条件:
r= Lxy/(LxxLyy)1/2------(4.15)
这个关系称为相关系数(correlation coefficient)。相关系数的最大值为 1,称为正相关,最小值为 -1,负相关。 绝对值 |r | 越接近于 1,y 与 x 之间的线性关系越好; 离 1 越远,其线性关系越差。当 r=0 ,线性关系不存在或说没有关系。 用 r 来衡量 y 与 x 之间是否有线性关系, r 需要达到一个起码值(临界值), 相关系数临界值记作 rα(n-2) 。它依赖于自由度 n-2 和置信系数 α 两个参数。 这个临界值可以查统计学相关系数临界值表。也可以由近似计算得到,在我的计算程序中,由近似计算提供。 如果
r< rα(n-2) ------(4.16)
就说 y 与 x 之间以置信水平 α 相关,否则称以置信水平 α 不相关。 相关不相关,就看 α 与 1 之间的差距的大小。 1-α 被认为是置信概率。 有时简单地记作 P=1-α 并称为 P 值。P 值太小,置信概率太低。在统计学上没有意义。 说在统计学意义上不相关。 由此,当 P 接近但不等于 1,我们说 y 与 x 之间是高相关的,当 P 接近但不等于 0,弱相关。

调整 α 使 rα(n-2) 从右侧接近 r , 用一个参数 α 或 P 判断 y 与 x 之间的线性相关关系具有同等效力。 自由度不同的相关性也可以比较。“门槛”是人定的,统计学上定 P=0.95。 具体定多少,依工程具体情况确定。 当目的是认定事物之间的相关性时,为防止误判断,把 α 取得小一些,即 P 取得大一些。 当目的是认定事物之间的无关性时,标准放得宽些,防止“证据不足”。 当把安全性放在第一位,把警戒指数降低,报警频率提高;要想降低报警频率,就把警戒指数提高, 到有更大把握时才发警报。当观察误差比较大时,有时把 α 定得比较大。 当 α>0.3, p<0.7 以后,相关性较弱,点的分布散乱,通常认为不足以证明其相关。 统计学以 0.05 为界,若 α<0.05, p>0.95 说“在统计学意义上显著”, 若 α<0.01, P>0.99 则说“在统计学意义上非常显著”。 这是诉讼判决时用的。在科学研究中,我主张放松,在化工过程中,我使用 p=0.75。 在观察过程中,p=0.6 也不放过。最后认定依据两个原则:统计学上的 α=0.05 原则和实践原则。 所谓实践原则,就是反复实践认为某个判断是正确的,哪怕没有达到 p=0.75 的标准,也作出判定。 在化学实验中,执行 0.05 准则太高,会丢失很多优化机会或者丧失许多判断机会。

平面上矩形区域中的一组点,点的纵横坐标分别组成两个向量。这两个向量的相关系数 r 或置信系数 α 反映这一组点的分布均衡性状况。分布均衡分散,则相关系数趋向于 0, 置信系数 α 趋向于 1, P 趋向于 0。相反,相关系数的绝对值趋向于 1,置信系数 α 趋向于 0,P 趋向于 1,点子分布成一直线。如下图左图点子分布均衡分散,相关系数 r= 0.2,右图点子成一直线,r=1。
图 4.1. 6个点的不同分布与相关系数之间的关系

n 个观察值对其平均值的偏差平方和可以分解为
S=∑ni=1 (yi-y-)2 =∑ni=1[(yi - y^i)+( y^i-y-)]2 =∑ni=1[(yi - y^i)2+(y^i-y-)2] =S+S. ------(4.17)
其中, S=∑ni=1(y^i-y-)2 称为回归平方和,即自变量的变化引起因变量的变化。 S =∑ni=1(yi - y^i)2 称为剩余平方和,由实验误差所引起。

根据回归分析理论,回归系数 β 的波动不仅与误差的方差σ2 有关,而且还与观察点的分布范围大小有关。 xi 分布越宽,则 β 的波动越小,即对 β 的估计越精确。β 的波动还与试验样本的大小有关,n 越大,估计越精确。

在什么地方取样,样本就是那个地方的信息,它不代表其他地方的信息。 基于局部的回归结果,除了机理模型外不能向实验区域之外延拓,不能预报实验区域以外的值。 可以尝试去预报,未经检验证实无效,那是高风险的。

参 考

  1. 茆诗松,丁元,周纪芗,吕乃刚编著,《回归分析及其试验设计》,华东师范大学出版社,上海,1981
  2. T.Hastie,R.Tibshirani,J.Friedman, The Elements of Statistical learning, Springer-Verlag,New York,2001
  3. J.S.Milton, Jesse C.Arnold, Introduction To Probability and Statistics,(Third Edition ),1995