05-基本原理.Rmd

# (PART) 第三编 推断统计 {-}

# 基本原理 {#Chp05}

## 大数定律与中心极限定律

用通俗的语言讲，大数定律描述这样一种现象：多次重复实验的算术平均数（可以理解为样本均值）随样本量增加收敛于总体的期望。

中心极限定律则描述：对独立重复试验，样本均值**依分布**收敛于一正态分布，该正态分布的期望即为总体期望，方差为总体方差除以样本量。由此，在样本量趋向无穷大的过程中，**均值的标准差**（即**抽样误差**）趋向于0。进而，有如下直观描述：当样本量很大的时候，样本均值十分接近总体均值，因为偏差的程度非常小。

## 总体分布，样本分布，抽样分布

总体分布（population distribution），指涉总体中个体的分布函数。当总体不变时，总体分布不变。

样本分布（sample distribution），指涉样本中个体的分布函数，与总体分布相近。样本分布随实际抽出的样本变化而变化。

抽样分布（sampling distribution），指涉样本统计量的分布函数。所谓抽样误差，指涉某一样本统计量的标准差。例如对同一总体，以同样的方式进行抽样，每次抽样的样本均值本身亦是随机变量，该随机变量的分布函数即是均值的抽样分布；又如样本方差。

## 常用抽样分布：$\chi^2$分布，$F$分布与$t$分布

先介绍一下自由度的概念。直观理解，自由度就是已知样本统计量的观测值时，可以自由取值的个体数量。例如，已知样本均值，则样本中$n-1$个个体可以自由取值，而最后一个个体的观测值可以经由前$n-1$个个体的观测值与样本均值计算而出，因此此时的自由度为$n-1$。

### $\chi^2$分布的直观含义及性质

直观地理解，$\chi^2$是标准正态分布的平方和。因此，$\chi^2$一般用以做方差的假设检验。

其数学表述为：在标准正态总体$X\sim N(0,1)$中，取样本$(X_1,X_2,…,X_n)$，则

$$Y=∑_{i=1}^nX_i^2\sim χ^2(n)$$

$\chi^2$分布具有可加性，即若$X\sim \chi^2(n)$，$Y\sim \chi^2 (m)$，且$X$、$Y$相互独立，那么有

$$Z=X+Y\sim \chi^2(n+m)$$

### $F$分布的直观含义及性质

直观地理解，$F$分布是$\chi^2$的均值的比。因此，$F$分布一般用以作方差比的假设检验。

其数学表述为：若$X\sim \chi^2(n)$，$Y\sim \chi^2 (m)$，且$X$、$Y$相互独立，则：

$$Z=\frac{X/n}{Y/m}\sim F(n,m)$$

即$F$分布可以看作是两个服从$\chi^2$分布且相互独立的随机变量除以各自的自由度后再相除，被除者的自由度即为第一自由度，除者的自由度即为第二自由度，由此可知：

$$Z\sim F(n,m) \Leftrightarrow \frac{1}{Z}\sim F(m,n)$$

###  $t$分布的直观含义及性质

直观地理解，$t$分布是标准正态分布除以$\chi^2$的均值的算术平方根。因此，$t$分布一般用于总体方差未知的均值检验。

若$X\sim N(0,1)$，$Y\sim \chi^2(n)$，且$X$、$Y$相互独立，则

$$Z=\frac{X}{\sqrt{Y/n}}\sim t(n)$$

当$n$足够大时，可用标准正态分布作近似估计，因为

$$t(n) \xrightarrow {n\rightarrow\infty} N(0,1)$$

## 点估计与区间估计

点估计与置信区间皆为通过样本估计总体参数的方法。由于经过构造的随机样本的统计量的期望等于总体参数，因此可以通过样本统计量估计总体参数。

$$样本统计量 \xrightarrow {大数定律\rightarrow 收敛于期望} 点估计\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ $$

$$样本统计量 \xrightarrow {概\ \ \ \ \ \ \ \ 率\ \ \ \ \ \ \ \ 模\ \ \ \ \ \ \ \ 型} 区间估计与假设检验$$

点估计即通过样本统计量估计总体参数，由于对任一给定样本，统计量的观测值唯一，因而叫做点估计。

区间估计，则构造一个区间，使得总体参数落在该区间的概率为一给定的概率。区间估计需要知道样本统计量的分布函数。一般而言，点估计值即为区间的中点。估计区间即为**置信区间**。给定的概率水平即为**置信水平**。总体参数落入置信区间为一随机01事件，该事件发生的概率即为置信水平。

## 假设检验思想与$p$值

假设检验的基本思想类同反证法：认为小概率事件不可能发生。假设检验需要给出一组假设，包含原假设与备择假设。如果原假设下的小概率事件发生了，那么就拒绝原假设。

假设检验需要有一给定的小概率事件的界定（即需给定显著性水平$\alpha$，发生概率低于$\alpha$的事件即为小概率事件）。并且，需要比较样本统计量及其更极端取值情况的概率与显著性水平。只有当样本的检验统计量的分布已知时，才能计算出样本统计量取到某值及更极端值的概率。所谓更极端值，也就是更偏离原假设的值。检验统计量必须是若干样本统计量与一个未知总体参数构成的，并且其分布已知。

由于中心极限定律保证了大样本下，样本均值依分布收敛于正态分布。因此，对任意随机大样本，其均值都可以做单样本均值假设检验。

所谓$p$值，直观地理解，即为在原假设下，统计量取到该值或更极端情况的值的概率。$p$值根据备择假设的方向改变“更极端情况”的定义，因此在不同备择假设下，$p$值会有所不同。

## 均值检验与$Z$统计量、$T$统计量

均值检验是最常见的假设检验。对大样本或正态分布小样本，其样本均值服从正态分布，因此可以做标准化。

对正态分布小样本，总体方差往往不可知，因此用样本方差代替。此时样本方差服从自由度为$n-1$的$\chi^2$分布，因此在原假设（取定总体均值）下，可以构造$T$统计量。若总体方差已知，则可以直接在原假设下构造$Z$统计量。

对大样本，由中心极限定律，样本均值服从于一正态分布。此时可以以修正样本方差为总体方差的近似值，直接构造$Z$统计量。

## 列联表检验与$\chi^2$统计量

列联表检验的原假设为二变量独立。当二变量独立时，很容易想到，各格格值与其期望值的差应为一均值为0的正态分布。经过近似，该正态分布的方差约为格值期望的算术平方根。这一近似的条件是各格格值相对而言都不是太小。如果有太小的格值，可以就相近格合并。

在列联表中，我们要测量的是各格格值与其期望值的偏离程度。如果偏离程度很大，那可以认为实际上二变量并不独立。如果偏离程度大体上满足正态分布，那么可以认为实际上二变量独立。一般而言，在测量偏离程度时，我们选用方差。

我们已经知道格值与期望差近似于服从均值为0的正态分布。因此，我们用$\chi^2$统计量作为列联表检验的统计量。由于列联表的性质，当边缘和已知，每行的自由度为$c-1$，每列的自由度为$r-1$，因此，检验统计量的自由度为$\nu=(r-1)(c-1)$。

## 方差分析与$F$统计量

一定要记住的是，方差分析分析的是均值。之所以叫方差分析，是因为分析借用了方差。之所以用方差分析而不是多次$t$检验，是因为，多次$t$检验会导致犯错的概率上升：假定每一次$t$检验的显著性水平为$\alpha$。已知定类变量共有$m$个分类，那么一共要做$m-1$次$t$检验。由此，最终的结果不犯错的可能性为$(1-\alpha)^{m-1}$。取$\alpha=0.05$，$m=5$，则结果不犯错的可能性为0.8145。

方差分析的基本思路是：在分组的情况下，方差可看作由两部分构成，一部分是组内差异，一部分是组间差异。如果组间差异比组内差异多得多，那么可以认为，各分组之间均值存在差异。这一比较需要经过“标准化”，即需要除以各自的自由度。

我们已经知道，$F$分布适用于均方比的检验。因此，方差分析的检验统计量为$F$统计量。

## 线性回归

线性回归的各自变量系数，是用最小二乘法计算得到的。所谓最小二乘法，直观理解，就是寻找到一列的系数$β_0,β_1,β_2,…,β_m$，使得由这一系列系数确定的回归直线

$$y=β_0+\sum_{i=1}^mβ_ix_i+\epsilon$$

能解释最多的差异。

任何一组数据，都能够求出一条对应的回归直线。但是回归直线是否有用，需要经过检验。首先是回归直线本身的检验。这一检验类似于方差分析，利用$F$统计量。回归直线本身的检验的思想在于，因变量$Y$的方差可以分解为两部分，一部分为回归直线解释，另一部分为剩余的未被解释的。如果回归直线解释的部分较多，那么可以认为回归直线有统计显著性，反之则认为无。这一检验，要求因变量$Y$服从正态分布。

其次是因变量与各因变量的线性相关性的检验。如果自变量与因变量无线性相关性，则需要从模型中剔除之。在多元线性回归中，因变量与各自变量的相关性会用偏相关分析（目的在于消除共线性的影响），这也是为什么多元回归中，报告的线性相关系数可能会与两个变量直接用相关命令求得的线性相关系数不等的原因。