统计学/统计抽样与抽样分布

维基教科书,自由的教学读本

本章为推断性统计学的基础章节,将系统介绍统计抽样的基本概念以及整个推断性统计学中所涉及的几种与正态分布有关的概率分布。

关于抽样的基本概念[编辑]

为什么要抽样?[编辑]

 为了收集必要的资料,对所研究的物件(总体)的全部元素逐一进行观测,往往不很现实。一种情形是研究的总体元素非常多,搜集资料费时,费用大,不及时而使所得的资料无意义(如在品质检验中,全部检查使废品数量又增加了许多)。另一种情形是检查具有破坏性,如炮弹、灯管、砖等 。因此必须进行抽样。  

简单随机抽样[编辑]

 不同的抽样方式,样本与总体的关系不一样,构成不同的抽样技术,本书全部都是指简单随机抽样。

 首先介绍一下有关样本随机性的知识。把总体看成随机变数X,对其进行n次观测,得到一个容量为n的样本:

x1(1), x2(1),……,xn(1)

 如另作n次观测,则会得到由不同的观测结果

x1(2), x2(2),……, xn(2)

 所组成第二个样本。如继续下去,会得到很多不同的样本,从容量为N的总体中抽取容量为n的样本,则有C_N^n个。 尽管我们实际中只抽取一个样本,但是在观测之前,样本的出现具有随机性。因此,样本的每一个观测值,例如第一个观测值,在观测之前就是一个随机变数,记作X1,观测得到它的取值记作x1,第二个元素,第三个元素依次类推。所以一个容量为n的样本,在观测之前,就是一个n维向量,即(x1, x2,……, xn)。 简单随机抽样是指这n个随机变数组成样本时,要具备以下两个条件:

  1. 这n个随机变数与总体X具有相同的概率分布;
  2. 它们之间相互独立。

样本统计量与抽样分布[编辑]

前面采取的简单随机抽样,样本具有随机性,样本的乱数 ,s2等也会随著样本的不同而不同,故它们是样本的函数。记为g(x1, x2,……, xn)称为样本统计量。 统计量的概率分布称为抽样分布(Sample distribution)。

几种与正态分布有关的概率分布[编辑]

  通常我们把总体看作是一个随机变数X,有它自身的分布,(大多数均视为正态分布),其分布中有参数,这些参数往往与总体特征数有关。正态分布有两个参数:μ,σ2,其中μ就是X的期望,σ2就是X的方差。所以我们常把总体的特征数叫做总体参数。这些总体特征数不易直接求出,由于样本是总体的一部分,故可根据样本的统计量的资讯推断总体参数。为了介绍总体参数的推断,这里先来介绍几个与正态分布有关的概率分布。  

正态分布[编辑]

样本平均数的抽样分布[编辑]

 确定 抽样分布的特征的最后一步是确定 概率分布的形式。我们考虑两种情形:一种是总体分布未知,另一种是已知总体分布为正态分布。 总体分布未知时,我们依赖于统计学中最重要的定理之一 —— 中心极限定理。  

中心极限定理[编辑]

 从总体中抽取样本容量为n的简单随机样本,当样本容量很大时,样本均值 的抽样分布与正态概率分布近似。

 图4-7说明中心极限定理在三个不同总体中的作用。在每种情形下,显然总体是非正态的。然而,我们注意到随著样本容量的增加, 抽样分布开始发生变化。当样本客量为2时,我们看到 抽样分布开始呈现与总体分布不同的外形。当样本容量为5时,我们看到三个抽样分布都开始呈现—种钟形外形。最后,当样本容量为30时,我们看到三个抽样分布近似于一种正态。因而,当样本容量足够大时, 抽样分布与正态概率分布近似。但是,样本容量应该达到多大时,我们才可以假定能够使用中心极限定理呢?统计研究人员通过研究各种总体不同样本容量下 的抽样分布,来研究该问题。当总体分布是对称坡形形状时,样本容量为5到10时即可适用中心极限定理。然而,如果总体分布严重偏态或明显非正态,则需要更大的样本容量。通常在统计实践中,假定对多数应用,当样本容量大于等于30时, 的 抽样分布与正态概率分布近似。实际上,样本容量为30或更多时,即可假定满足中心极限定理大样本条件。这一结果非常重要,我们再次重申一下。当样本容量很大的时候, 的抽样分布可用正态概率分布来近似。大样本的条件可假定为 简单随机样本的样本容量为30或更多。当总体分布未知时,中心极限定理是确定 抽样分布形式的关键。然而,我们也可能遇到这样一些假定或认为总体是正态概率分布的抽样情形。在这种情形下,下面的结果定义了 抽样分布的形式。

 当总体为正态概率分布时,对任何样本容量, 的抽样分布均为正态分布。

 总之,若我们用一个大的简单随机样本(n>=30)时,中心极限定理使我们可以用正态概率分布近似 的抽样分布。在简单随机样本是小样本(n<30)时,仅当我们假定总体为正态概率分布时, 的抽样分布才为正态的。

图4-7 中心极限定理在三个不同总体中的作用