回归分析与方差分析 (Regression & ANOVA)
本章节探讨变量之间的统计依赖关系以及多组均值差异的检验。
假设随机变量 Y 与自变量 x 满足线性关系:
Yi=β0+β1xi+ϵi,i=1,…,n
其中 ϵi∼N(0,σ2) 且相互独立。β0,β1 是待估参数。
寻找 β^0,β^1 最小化残差平方和 Q(β0,β1):
Q=∑i=1n(yi−β0−β1xi)2
通过对参数求偏导并令其为 0,解得:
β^1=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ)=SxxSxy
β^0=yˉ−β^1xˉ
- 无偏性: E[β^0]=β0,E[β^1]=β1。
- 高斯-马尔可夫定理: 在所有线性无偏估计量中,LSE 具有最小方差(即 BLUE)。
- σ2 的估计: σ^2=n−2SSE,其中 SSE=∑(yi−y^i)2。
用于检验多个总体均值是否相等。
假设有 k 个水平,每个水平下有 nj 个观测值。
- SST (总平方和): ∑i,j(yij−yˉ⋅⋅)2 (反映总波动)。
- SSA (因素平方和): ∑jnj(yˉj⋅−yˉ⋅⋅)2 (反映组间差异)。
- SSE (误差平方和): ∑i,j(yij−yˉj⋅)2 (反映组内随机误差)。
平方和分解: SST=SSA+SSE。
若原假设 H0:μ1=μ2=⋯=μk 成立,则:
F=SSE/(n−k)SSA/(k−1)∼F(k−1,n−k)
若 F>Fα,则拒绝 H0,认为各组均值有显著差异。
练习 1: 证明回归直线过样本中心点
题目: 证明线性回归方程 y^=β^0+β^1x 必定经过点 (xˉ,yˉ)。
证明:
根据最小二乘法求得的 β^0=yˉ−β^1xˉ。
代入回归方程,当 x=xˉ 时:
y^=(yˉ−β^1xˉ)+β^1xˉ=yˉ
因此,回归直线必过 (xˉ,yˉ)。
练习 2: 方差分析中的自由度计算
题目: 某实验研究 4 种肥料对产量(k=4)的影响,每种肥料各试种 5 次(nj=5,n=20)。请写出方差分析表中各个平方和的自由度。
解答:
- 组间 (SSA) 的自由度: dfA=k−1=4−1=3。
- 组内 (SSE) 的自由度: dfE=n−k=20−4=16。
- 总 (SST) 的自由度: dfT=n−1=20−1=19。
验证: 3+16=19 (成立)。
练习 3: 判定系数 R2 的含义
题目: 已知某回归模型的 R2=0.81。解释其统计学含义。
解答:
R2 (Coefficient of Determination) 定义为 R2=SSTSSR。
R2=0.81 表示因变量 Y 的总波动中有 81% 可以由自变量 x 的线性回归模型来解释,仅有 19% 是由随机误差引起的。这通常表示模型拟合度较好。