文章目录
1. 前文回顾2. 单参数显著性检验——t检验2.1 问题的提出2.2 检验统计量——t统计量的构造2.3 拒绝域的构造2.4 浅谈p值3. 回归方程显著性检验——F检验3.1 问题的提出3.2 F检验统计量的构造3.3 拒绝域的构造4. 总结参考文献写在最后【更新日志】
5/1/ 对文章中公式与措辞中存在的问题进行修正(感谢评论区小伙伴的指正!)
1. 前文回顾
在上一篇文章中,我们分别研究了最小二乘估计量β^OLS 和σ^OLS 的相关性质,证明了β^OLS 是β的一个最优线性无偏估计量(BLUE),σ^2OLS 是σ2 的一个无偏估计量,并得到了其在正态性误差假设下所对应的分布:
β^OLS∼N(β,σ2(XTX)−1)\bm{\hat\beta}_{OLS} \thicksim N(\bm\beta, \sigma^2 ( \bm{X}^T \bm{X} )^{-1} ) β^OLS∼N(β,σ2(XTX)−1)σ^OLS2σ2∼χN−p−12\frac {\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1} σ2σ^OLS2∼χN−p−12
(详情请见:【统计学习系列】多元线性回归模型(三)——参数估计量的性质)。
通过最小二乘法拟合好模型的参数后,一个重要的问题就是:这个模型真的“好"吗?满足什么条件、什么性质的模型可以称作一个“好模型”呢?
2. 单参数显著性检验——t检验
2.1 问题的提出
首先,我们应该想到的问题是,在一个多元回归模型中,是不是每一个引入的自变量对因变量都有实实在在的影响呢?这样的影响是显著的吗?我们应不应该在模型中保留这一变量呢?
在回答这些问题之前,我们先回顾一下总体模型:
Y=β0+∑i=1pXiβi+ϵY= \beta_0 + \sum_{i=1}^{p} X_{i} \beta_i + \epsilon Y=β0+i=1∑pXiβi+ϵ其中:
ϵ∼N(0,σ2)\epsilon \thicksim N(0,\sigma^2) ϵ∼N(0,σ2)
让我们聚焦众多参数中的一个:βi 。βi 的意义是什么呢?当其他变量保持不变,而只有Xi 变动时,每变动一个单位的Xi,就会让Y平均变动βi 个单位。而若Xi 的变动能够确确实实引起Y的变动, 那么βi 应该不等于0。换句话说,若可以验证βi 不为0,那么就可以证明Xi 与Y存在线性相关关系。
【注1】这里的关系是线性的。二次即更高阶的相关性并不能由βi 是否等于0体现; 【注2】Xi 与Y存在相关关系,并不能证明二者之间存在因果关系(Causality)。
然而,我们现在只有βi 的估计量β^OLS,i ,而估计量与参数的真实值有一定的误差。由于β^OLS,i 是一个统计量,因此只要我们在统计意义下验证βi 是否等于零就可以了。
至此,我们就可以构造一个如下的假设检验问题:
H0:βi=0H1:βi≠0H_0: \beta_i=0 \\ H_1: \beta_i\ne0 H0:βi=0H1:βi=0
2.2 检验统计量——t统计量的构造
若想构造检验统计量,我们需要先对β^OLS,i 进行变型。
记矩阵 (XTX)-1 的对角线元素:
diag(XTX)−1=(vi,i)p+1\text{diag}(\bm{X}^T \bm{X} )^{-1} = (v_{i,i})_{p+1} diag(XTX)−1=(vi,i)p+1
由第一部分中β^OLS 服从的分布,我们可以得到β^OLS,i 的分布:
β^OLS,i∼N(βi,σ2vi,i),i=0,1,...,p\hat\beta_{OLS, i} \thicksim N(\beta_i, \sigma^2 v_{i,i}) , \ i=0, 1,...,p β^OLS,i∼N(βi,σ2vi,i),i=0,1,...,p
将β^OLS 标准化,有:
β^OLS,i−βiσvi,i∼N(0,1),i=0,1,...,p\frac {\hat\beta_{OLS,i} - \beta_i}{ \sigma \sqrt{v_{i,i}} } \thicksim N(0, 1) , \ i=0, 1,...,p σvi,iβ^OLS,i−βi∼N(0,1),i=0,1,...,p
然而,此时总体标准差σ为未知参数,因此需要用样本标准差σ^ 来代替。由于σ^2OLS 有分布:
(N−P−1)σ^OLS2σ2∼χN−p−12\frac {(N-P-1) \hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1} σ2(N−P−1)σ^OLS2∼χN−p−12
由t分布的定义:
(N−p−1)(β^OLS,i−βi)σvi,i/(N−p−1)σ^OLS2σ2=β^OLS,i−βiσ^vi,i∼tN−p−1\frac {\sqrt{(N-p-1)} (\hat\beta_{OLS,i} - \beta_i ) } { \sigma \sqrt{v_{i,i}} } / \sqrt{\frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} } \\ =\frac {\hat\beta_{OLS,i} - \beta_i}{\hat \sigma \sqrt{v_{i,i}} } \thicksim t_{N-p-1} σvi,i(N−p−1)(β^OLS,i−βi)/σ2(N−p−1)σ^OLS2=σ^vi,iβ^OLS,i−βi∼tN−p−1
若原假设H0 成立,即βi = 0,可以定义t统计量(又称t值):
t=β^OLS,iσ^vi,i∼tN−p−1t= \frac {\hat\beta_{OLS,i}}{\hat \sigma \sqrt{v_{i,i}} } \thicksim t_{N-p-1} t=σ^vi,iβ^OLS,i∼tN−p−1
并称上式分母项为β^OLS,i 的标准误(Standard Error, SE)。
从t统计量的定义式可以看出,t的绝对值越大,β^OLS,i越不等于0,原假设越有可能出错,我们越应该拒绝原假设。
注1:t值的几何意义为β^OLS,i偏离其标准误的单位数;
注2:当N足够大时,t统计量近似服从标准正态分布,因此可以使用标准正态分布进行替代。关于t分布与正态分布的关系,可参考文献[1] t分布收敛于标准正态分布的几种证明方法。
注3:关于t分布与t检验相关的更多知识,可参考文献[2] 我懒得找了。
2.3 拒绝域的构造
然而,t统计量多大算大呢?多大我们才应该拒绝原假设呢?
假设原假设 H0 正确,根据t统计量所对应的分布,在给定某一概率 1-α(我们称其为置信水平(Confidence Level))的前提下,t统计量应该满足:
P{∣t∣>tα2,N−p−1}<αP\{ |t| >t_{\frac{\alpha}{2}, N-p-1} \}< \alpha P{∣t∣>t2α,N−p−1}<α
其中,tα/2,N-p-1是tN-p-1 分布的α/2 分位数,可以通过计算机软件或者查t分布分布表的方式得到。
在判断原假设是否成立时,我们可以基于一个原则:小概率事件在一次试验中几乎不会发生。若α足够小,比如规定为常用的0.05,那么在 H0 正确的前提下,t统计量的绝对值大于t0.025,N-p-1 的概率不超过5%。换言之,或者说 |t| >t0.025,N-p-1,我们就有足够的理由去认为原假设不正确,从而拒绝原假设。
基于这种思想,我们可以构造出一个区域(称为拒绝域(Rejection Field)):
(−∞,−tα2,N−p−1)∪(tα2,N−p−1,+∞)(-\infin,-t_{\frac{\alpha}{2}, N-p-1}) \ \cup \ (t_{\frac{\alpha}{2}, N-p-1}, +\infin) (−∞,−t2α,N−p−1)∪(t2α,N−p−1,+∞)
图1 t检验拒绝域构造示意图(阴影部分即为对应显著性水平下的拒绝域。图片来源:百度图片)
当t统计量落入这个区域时,我们都应该拒绝原假设H0,并认为βi 不等于0,自变量Xi 与因变量Y存在统计意义下显著的线性相关关系(Statistically Significant Linear Correlation)。
注1:拒绝域,顾名思义,即若t值落入这个区间就应该拒绝原假设H0;
注2:在应用时,我们可以记住一句口诀:t值(的绝对值)越大越拒绝。
2.4 浅谈p值
此外,许多统计软件在回归的结果中会给出参数估计量所对应的p值(p-value)。p值的意义是:拒绝原假设所需要的最小置信度。什么意思呢?就是说,如果给出的p值小于你需要的置信度α,那么我们就应该拒绝原假设。也就是说,若:
p-value<α\text{p-value}<\alpha p-value<α
我们应拒绝原假设H0,并认为βi 不等于0,自变量Xi 与因变量Y存在统计意义下显著的线性相关关系。
注1:与t值正好相反,在应用时,我们可以说:p值越小越拒绝;
注2:使用p值而不使用t值的好处是:p值不依赖于样本容量N,不用查分布表,使用起来更加简单方便 。
3. 回归方程显著性检验——F检验
3.1 问题的提出
在上一章的t检验中,我们对单一变量进行了显著性影响的评判。然而,这样做的一个缺点是:我们只判断了某一个解释变量对因变量单独的影响,而忽略了各解释变量对因变量的“共同作用”。若每一个变量单独与因变量不具有显著的线性关系,那么是不是模型本身就不能用了呢?未必。换句话说,只有模型中引入的解释变量X1, …,Xp 均不能解释因变量Y,那么我们所建立的模型才能说是没有意义的。因此,我们需要对模型整体进行检验。与t检验类似,我们可以构造如下的假设检验问题:
H0:β1=β2=...=βp=0H1:∃i∈{1,2,...,p},s.t.βi≠0H_0: \beta_1 = \beta_2 = ... = \beta_p =0 \\ H_1: \exist \ i \in \{1,2,...,p\}, s.t. \ \beta_i\ne0 H0:β1=β2=...=βp=0H1:∃i∈{1,2,...,p},s.t.βi=0
注:β0 不能放入检验变量中,因为现在需要检验的是X与Y的线性关系,而不是Y是否等于0这一问题。
3.2 F检验统计量的构造
我们应该如何构建检验统计量呢?让我们重新考察原模型:
yi=β0+∑j=1pxijβj+ϵiy_i= \beta_0 + \sum_{j=1}^{p} x_{ij} \beta_j + \epsilon_i yi=β0+j=1∑pxijβj+ϵi
然而,若原假设H0成立,那么模型将会退化为
y=β0+ϵiy = \beta_0 + \epsilon_i y=β0+ϵi
因此,假设回归方程是显著的(即H0不成立),那么由回归方程所拟合的因变量y^i 应该有较大的方差,而其残差项所对应的方差应该较小,这是因为不同的解释变量xi 应该对应不同的被解释变量yi ;若回归方程不显著(H0成立),那么此时回归方程所拟合的变量y^i 方差应该几乎为零,而其残差项y^i -yi 则应具有较大的方差。
我们定义回归方程的可解释平方和(Explained Sum of Square,ESS)为:
ESS=∑i=1N(y^i−y^ˉ)2=∑i=1N(y^i−yˉ)2ESS = \sum_{i=1} ^N(\hat{y}_i - \bar{\hat{y}} )^2 = \sum_{i=1} ^N(\hat{y}_i - \bar{y} )^2 ESS=i=1∑N(y^i−y^ˉ)2=i=1∑N(y^i−yˉ)2
回归的残差平方和(Residual Sum of Square,RSS)为:
RSS=∑i=1N(y^i−yi)2RSS = \sum_{i=1} ^N(\hat{y}_i - y_i )^2 RSS=i=1∑N(y^i−yi)2
根据上述的分析,如果可解释平方(ESS)和与残差平方和(RSS)之比越大,则说明X对Y整体的影响越显著;若原假设H0成立,则ESS与RSS的比值应该接近于0。
而容易证明,ESS与RSS分别服从卡方分布:
ESSp∼χp2\frac{ESS}{p} \thicksim \chi^2_{p} pESS∼χp2RSSN−p−1∼χN−p−12\frac{RSS}{N-p-1} \thicksim \chi^2_{N-p-1} N−p−1RSS∼χN−p−12
注:这部分证明将会在未来补充在附录中。
至此,我们可以构造F统计量:
F=ESS/pRSS/N−p−1∼F(p,N−p−1)F = \frac{ESS/p}{RSS/N-p-1} \thicksim F(p, N-p-1) F=RSS/N−p−1ESS/p∼F(p,N−p−1)
从F统计量的够造上来看,F统计量越大,说明X对Y存在的影响更大,原假设越可能被拒绝;而F统计量越接近零,说明X对Y存在的影响越小,原假设越可能成立。
注1:从F统计量的构造上来看,F取值非负(平方和与平方和的比值);
注2:在应用过程中,可以记住口诀:F越大越拒绝;
注3:有关F分布与F检验更多的相关知识,请有关参考文献[3] 我还是懒得找了。
3.3 拒绝域的构造
与t统计量拒绝域构造方法类似,在给定置信水平 1 -α的前提下,F统计量应该满足:
P{F>Fα(p,N−p−1)}<αP\{ F > F_{\alpha} (p, N-p-1) \}< \alpha P{F>Fα(p,N−p−1)}<α
其中,Fα(p,N-p- 1) 是F(p,N-p- 1) 分布的α分位数,可以通过计算机软件或者查F分布分布表的方式得到。
注:与t统计量的双尾检验区间不同的是,F检验为单尾检验。
我们依然依照“小概率事件在一次试验中不会发生”的原则:在 H0 正确的前提下,F统计量大于Fα(p,N-p- 1) 的概率不超过α。换言之,若F>Fα(p,N-p- 1),我们就有足够的理由去认为原假设不正确,从而拒绝原假设。
基于这种思想,我们可以构造拒绝域:
(Fα(p,N−p−1),+∞)(F_\alpha(p, N-p-1), +\infin) (Fα(p,N−p−1),+∞)
图2 F检验拒绝域构造示意图(阴影部分即为对应显著性水平下的拒绝域。图片来源:百度图片)
当F统计量落入拒绝域内时,我们应该拒绝原假设H0,从而认为模型是显著的,或者说解释变量X与被解释变量Y之间存在显著的线性相关关系。
4. 总结
在这篇文章中,我们分别研究了单变量的显著性检验和模型的显著性检验。
(1)在单变量检验中,我们构造了假设检验问题:
H0:βi=0H1:βi≠0H_0: \beta_i=0 \\ H_1: \beta_i\ne0 H0:βi=0H1:βi=0
构造了检验统计量——t统计量:
t=β^OLS,iSE(β^OLS,i)∼t(N−p−1)t= \frac {\hat\beta_{OLS,i}}{SE(\hat \beta_{OLS,i})}\thicksim t(N-p-1) t=SE(β^OLS,i)β^OLS,i∼t(N−p−1)
并给出了拒绝域:
(−∞,−tα2(N−p−1))∪(tα2(N−p−1),+∞)(-\infin,-t_\frac{\alpha}{2}(N-p-1)) \ \cup \ (t_\frac{\alpha}{2}(N-p-1), +\infin) (−∞,−t2α(N−p−1))∪(t2α(N−p−1),+∞)
(2)在模型检验中,我们构造了假设检验问题:
H0:β1=β2=...=βp=0H1:∃i∈{1,2,...,p},s.t.βi≠0H_0: \beta_1 = \beta_2 = ... = \beta_p =0 \\ H_1: \exist \ i \in \{1,2,...,p\}, s.t. \ \beta_i\ne0 H0:β1=β2=...=βp=0H1:∃i∈{1,2,...,p},s.t.βi=0
构造了检验统计量——F统计量:
F=ESS/pRSS/N−p−1∼F(p,N−p−1)F = \frac{ESS/p}{RSS/N-p-1} \thicksim F(p, N-p-1) F=RSS/N−p−1ESS/p∼F(p,N−p−1)
并给出了拒绝域:
(Fα(p,N−p−1),+∞)(F_\alpha(p, N-p-1), +\infin) (Fα(p,N−p−1),+∞)
至此,我们解决了如何验证各个解释变量对因变量是否存在显著的线性影响,以及模型中涉及到的解释变量总体是否对因变量是否存在显著的线性影响。
参考文献
[1] t分布收敛于标准正态分布的几种证明方法
写在最后
欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀!
有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: mikeysun_bugfix@
谢谢大家!
如果觉得《【统计学习系列】多元线性回归模型(五)——参数与模型的显著性检验:t检验与F检验》对你有帮助,请点赞、收藏,并留下你的观点哦!