生活中的智慧: 改革开放中产生的经济讨论 - 正文第9节选择性抽样、选择偏差与自选择

在微观计量经济学中最常见的问题之一是样本选择问题。在一般的统计或计量经济学研究中,用于估计所研究系统的参数的数据依赖于从总体中抽取的样本。如果所抽取的样本是随机的,即以类似“抽签”的方式获得的样本,根据这些样本数据所估计的各种参数能够准确反映总体的相关特性,理论上,就是所估计的参数是无偏的和一致的。而且随着抽取的样本越大,其对事件的总体特征分布的描述越是会准确。但是,如果所抽取的样本不是随机的,那么无论其选择的样本容量有多大,则根据这些样本数据所估计的参数就不能准确反映所研究的总体性质的分布。但是,在不同的事件的研究中,大多数抽样都不是随机的,因为事件的总体总是会相当庞大,甚至是没有边界的。因此,多数的抽样只能是在研究者所选择的界定范围和规则内进行,这就可能或是未把相关联的变量放入抽样,或是把不相干的变量放入抽样中,出现抽样选择的偏差。“赫克曼两阶段模型”或赫氏法就是解决这种选择的偏差和自选择的问题。可以说,在社会科学的各种研究中,选择偏差与自选择问题是最平常的,也是不可避免的。因为在大多数社会科学的经验研究中,所获得的样本数据很难保证它们的随机性。我们可以以赫克曼最早研究的劳动妇女工资的决定为例对此给以说明。

研究,例如一个地区,劳动妇女的工资状况。这个地区的所有适龄妇女(包括就业与非就业妇女)构成研究的总体。在研究中,一般不可能获得所有这些妇女的资料,而只能得到一部分就业妇女的相关资料。这部分提供资料的被调查妇女就构成研究的样本。现在,研究的目的是通过样本中被调查妇女提供的劳动数据分析所有适龄妇女(总体)如果就业时她们工资水平的一些决定因素。所调查的妇女可以是随机地从总体中抽取的,但只有就业妇女能够提供有关她们工资水平的资料,所以只能研究就业妇女的样本数据。可以把就业与不就业看做个人的一种决策,妇女的这个决策如果不依赖

第9节 选择性抽样、选择偏差与自选择（1/2）

第9节选择性抽样、选择偏差与自选择（1/2）