统计学/统计抽样

　　本章系统介绍统计抽样基本概念以及简单随机抽样、分层抽样、整群抽样以及系统抽样相关理论。

统计抽样的基本概念

　　在前面我们给出了总体和样本的定义，即　*总体由研究物件的全体所组成。　*样本是总体中的部分元素所组成的集合。

　　为说明这些概念,我们考虑Dunning微系统有限公司（DMI）的情况，Dunning微系统有限公司是一个生产微型电脑及终端的公司，该公司想搜集购买DMI微型电脑使用者的特征。为了得到这些资料，该公司对DMI微型电脑的拥有者进行了一次抽样调查。这个抽样调查的个体是购买DMI微型电脑的每个人,总体是购买DMI微型电脑的所有人组成的集合，样本是要调查的DMI微型电脑拥有者的一个子集。　　在抽样调查中，有必要区分目标总体与抽样总体。目标总体是我们要推断的总体，抽样总体是实际抽取样本的总体，明确这两个总体不总是一致的是很重要的，在DMI例子中，目标总体是购买了DMI微型电脑的所有人，抽样总体是将保修登记卡寄回DMI公司的所有电脑拥有者。既然有购买DMI微型电脑但没有寄回保修卡的人，可见抽样总体和目标总体是不一致的。

　　抽样调查获得的结果只适用于抽样总体，这些结果是否能扩展到目标总体需要依赖分析家的判断。关键的问题是考虑在所研究的个体上，抽样总体与目标总体是否非常一致，以此来决定能否扩展。

　　在抽样之前，应将总体划分为抽样单位。抽样单位既可以是一个简单的个体，也可以是一组个体。例如，假设我们要调查持有证书的专业工程师，他们从事商业建筑物的供暖和空调系统的设计工作。如果可以利用从事这种工作的所有专业工程师的名册，则抽样单位就是我们要调查的专业工程师。如果这个名册不可以利用，我们必须寻找其他的方法。商业电话号码簿可以提供所有工程公司的名册。由给出的工程公司的名册．我们能够确定选择工程公司的一个调查样本。然后，对每一个公司，我们采访该公司所有的专业工程师。这种情况下，工程公司是抽样单位，被采访的工程师是个体。

　　对某一个特殊研究，抽样单位的名册称为抽样框。在专业工程师的抽样调查中，抽样框是商业电话号码簿上的所有工程公司的名册，而不是所有专业工程师的名册，这是因为专业工程师的名册是不可以利用的。常常由可以得到的和确定的名册决定调查所用的特殊抽样框，进而确定抽样单位。在实践中，编制抽样框是进行抽样调查的一个困难而又重要的步骤。

抽样调查种类和抽样方法

　　最常用的三种调查是邮寄调查、电话调查和个人采访调查，而且每一种调查都需要设计和使用调查表。

　　在使用调查表的调查中，设计调查表是很关键的问题。设计者必须要抵制想囊括所有要研究问题的诱惑，因为每增加一个问题都会增加调查表的长度。长的调查表不仅使回答者感到疲劳，而且也使采访者感到疲劳，尤其对邮寄和电话调查更是如此。但是，如果用个人采访调查，较长而且复杂的调查表是行得通的。对调查表，关于措词、排序及问题的分组等方面都存在大量的知识，这些问题会在有关抽样调查的更全面的书籍中讨论。　　根据使用的抽样方法，抽样调查可分为概率抽样和非概率抽样。用概率抽样，可以计算取得的每个可能样本的概率；用非概率抽样，则不知道取得的每个可能样本的概率。如果调查者想对估计的精度做出说明，则不能用非概率抽样。相应地，用概率抽样方法对给定的允许误差（也称为抽样误差界限），可构造置信区间。在后面几节中，我们将讨论四种概率抽样方法：简单随机抽样、分层简单随机抽样、整群抽样和系统抽样。

　　尽管统计学家喜欢用概率抽样方法，但非概率抽样方法常常是必要的。非概率抽样的优点是成本低而且容易完成；缺点是不能对估计的精度做出正确的说明。两种最常用的非概率抽样方法是方便抽样和判断抽样。

　　使用方便抽样，是由于方便性而选择包含在样本中的单位。例如，一个教授在大学里进行一项调查研究，他可以邀请一些学生志愿者参加他的研究专案，仅仅是因为这些学生在他的班上。这时，学生样本称为方便样本。在某些情况下，方便抽样只是实践方法，例如，检查人员可以偶尔从一些柳条筐中选择柳丁，以得到柳丁货运量的样本。即使运输的所有柳丁都贴有标签，建立抽样框和使用概率抽样方法也是不切合实际的。野生动物的捕获和对消费者研究的志愿小组都是方便样本的一些例子。

　　尽管方便抽样是选择样本和搜集资料的一种相对简单的方法，但是对这样取得的样本统计量，无法评价通过它们估计要研究的总体参数的“优良性”。方便样本可能提供好的结果，也可能提供不好的结果。由样本结果进行的统计推断，没有统计上的证明过程。有时有些研究人员用方便样本来搜集用统计方法设计的概率样本的资料，这样做时，研究人员应该强调方便样本可以看成是一个随机样本，这样它可以成为总体的代表。但是这样得出的结论会被质疑，因此，在用方便样本对总体参数进行推断时，必须非常小心。

　　在用非概率抽样技术中，根据个人的主观意识来选择总体有代表性的抽样单位的方法，称为判断抽样。尽管判断抽样常常是选择样本的一种相对容易的方法，但调查结果的使用者必须清楚地认识到，这些结果的品质依赖于个人在选择样本时的判断。因此，用判断样本对总体参数进行统计推断时也应该非常小心。一般地，用判断样本所得结果的精度没有做出统计上的说明。

调查误差

进行抽样调查可产生两类误差，一类是抽样误差，它是所得到的样本点估计值与总体参数之间的数量差异。换句话说，抽样误差是由于没有对总体的所有单位进行调查而产生的误差；另一类是非抽样误差，它包括进行一次抽样调查可能出现的所有其他类型的误差，如测量误差、采访者误差及资料处理误差等。抽样误差仅出现在抽样调查中，而非抽样误差则既可以出现在全面调查中，也可以出现在抽样调查中。　 ===非抽样误差===　　　我们不能准确地测量要研究的特征，这是最常见的非抽样误差形式之一，测量误差可以出现在普查或抽样调查中。对其中任何一种调查，调查人员必须十分仔细，保证测量工具（如调查表）非常准确，而且进行测量的人员要经过适当的培训。在多数情形下，注意细节是最好的防范措施。由于没有回答所产生的误差对负责设计调查的统计人员和使用调查结果的管理人员都是一个非常关心的问题。当不能得到或只能部分得到某些被调查单位的资料时，就会产生这类非抽样误差。出现偏差是很严重的问题。例如，对妇女外出工作的看法进行调查，若只在白天做家庭采访，就会出现明显的偏差。因为，外出工作的妇女没有包含在样本中。

　　通常，在技术性调查中，会出现由于缺乏回答知识而产生的非抽样误差。

　　另外两种类型的非抽样误差是选择误差和资料处理误差。当调查中包含不恰当的项目时，就会生产选择误差。假设设计一个抽样调查，来描述有胡须的男人外观。对“有胡须的男人”的理解，如果有些采访人员认为应包括有小胡子的男人，而其他采访人员则不这样认为，这样，调查的结果资料将有缺陷。当有登记错误或输入错误时，就会出现资料处理误差。如将调查表中的资料输入电脑时产生的错误，即为输入错误。

　　尽管在大多数的调查中，会出现一些非抽样误差，但通过周密的计划可使它们达到最小，这些计划包括注意保证抽样总体与目标总体的一致、遵循良好调查表的设计原则、培训采访人员等。调查的最后结论中，应包含非抽样误差对调查结果可能产生影响的讨论。　 ===抽样误差===　　　回忆在7.1节介绍的DMI抽样调查问题，假设DMI公司想估计购买DMI微型电脑的人的平均年龄。如果可以调查DMI微型电脑拥有者的整个总体（普查），则不存在抽样误差，同时我们也可以准确地计算他们的平均年龄。但如果不能调查DMI拥有者的整个总体，调查结果将如何呢？这时，样本均值与总体均值之间可能存在差异，差异的绝对值即为抽样误差。

　　实践中，对任何特殊的样本，不可能知道抽样误差，因为总体均值是未知的。但是，对于抽样误差的大小可以有概率说明。

　　因此，由于调查的只是一个样本，而不是整个总体，就会产生抽样误差。尽管抽样误差不可避免，但却是可以控制的。选择合适的抽样方法是控制这类误差的一个重要的方法。在下面几节中，我们将讨论四种概率抽样方法：简单随机抽样、分层简单随机抽样、整群抽样和系统抽样。

简单随机抽样

分层简单随机抽样

整群抽样

系统抽样

　　系统抽样常常用来代替简单随机抽样。对某些抽样情况，特别是大型总体，通过先确定乱数，然后根据抽样框寻找与乱数相对应的个体的方法来选择—个简单随机样本，这需要花费大量时间。在这种情况下，系统抽样可代替简单随机抽样。例如，需要从容量为5 000的总体中抽取一个容量为50的样本，我们可以从总体中每100（5 000／50）个个体中抽选一个个体。这种情况的系统样本，是从抽样框的前100个个体中随机选择一个；根据选中的第一个个体位置，然后在其后面的抽样框中，每隔100个个体选择一个，可得到样本中其余的个体。实际上，通过系统排列总体，及在随机抽取第一个个体后，每隔100个来选择一个个体，可以得到一个容量为50的样本。用这种方式选择容量为50的样本常常比用简单随机抽样容易。因为第一个个体的选择是随机的，因此系统样本常常假定具有简单随机样本的性质。当抽样框是由总体中的个体随机排列而形成时，这种假定通常是合适的。