一、比率的方差估计式
比率估计量是抽样技术理论里一大重要估计量,其定义为两个总体总量或总体均值之比。借助适当的辅助变量,比率估计也可以得到主要变量的参数估计
由于通过辅助变量实质上引入了更多的信息,因此有理由猜测比率估计量可能更加精确。但是比率估计的方差和简单估计相比所谓的改进是否确切的存在,即使存在,改进的程度又有多大呢?
记总体大小为
,抽样大小为
,抽样比例为
,辅助变量的总体值为
,样本值为
:主要变量的总体值为
,样本值为
。教材上常见的一个估计式是:

据此,可以给出主要变量相应参数的估计方差。以总体总值为例:

注意到上式使用了
而不是“=”;也就是说是一个近似值。更确切地说,上式估计的只是一个方差下界,因为上式右端实质上是
;而
。可以看到,比率估计
方差包括分子、分母两部分波动因素,而估计式中忽略了分母部分的波动,因此得到的方差估计是偏小的。
要使等号严格成立的条件是:

在有限总体的情况下,表示辅助变量恒为定值。注意:此时辅助变量已经没有意义了,因为它不能带来更多的信息,比率估计量与简单估计量的精度是完全相同的。
实际应用的时候,为了使方差估计式成立,我们也必须保证:

即样本均值
总在
附近波动,且波动范围很小。在这种情况下,辅助变量的意义也很小.
这就是矛盾的所在:比率估计量的方差估计严格成立的场合,也是比率估计量失去应用价值的时候。
二、一个模拟的例子
在样本均值
波动比较大的时候,比率估计的方差究竟有多大的改进呢?对于这个问题,可以用统计模拟来实现。
我的例子如下:数据来源是人民大学版的《抽样技术》例题4.3,估计33个乡的粮食总产量,抽样得到10个乡粮食产量Y,耕地面积X,村的数量M。Y= (22, 22.8, 30.2, 21.7, 24.3, 31.2, 26, 20.5, 33.8, 23.6),X= (800, 780, 1000, 700, 880, 1100, 850, 800, 1200, 830),M= (15, 18, 26, 14, 20, 28, 21, 19, 31, 17)。
我们可以比较三种方法估计的理论方差:简单估计,以耕地面积作辅助变量的比率估计,以村数量作辅助变量的比率估计。因为总体数据未知,我首先以有放回的抽样模拟一个样本量为33的数据;然后枚举所有可能抽样组合,计算三种估计量。另一方面,对于每种抽样结果,我也采用方差估计式求方差估计值。最后可以将不同方差进行比较。考虑到计算量的问题,仅模拟了样本量为5的情形.
考虑到数据量大,在生成全组合时,采用了字典排序的算法,(可参见http://www.blogjava.net/stme/archive/2007/10/23/94361.html)
#放回抽样,生成总体数据
INDEX = sample(1:10, 33, rep = T)
M = c(15, 18, 26, 14, 20, 28, 21, 19, 31, 17)[INDEX]
Y = c(22, 22.8, 30.2, 21.7, 24.3, 31.2, 26, 20.5,
33.8, 23.6)[INDEX]
X = c(800, 780, 1000, 700, 880, 1100, 850, 800, 1200,
830)[INDEX]
#总体总值计算
M0 = sum(M)
X0 = sum(X)
y.simple <- y.m <- y.x <- var.m <- var.x <- NULL
index = c(rep(1, 5), rep(0, 28))
y.simple = c(y.simple, 33 * sum(Y_M * index)/5)
R.m = sum(Y * index)/sum(M * index)
R.x = sum(Y * index)/sum(X * index)
y.m = c(y.m, M0 * R.m)
y.x = c(y.x, X0 * R.x)
var.m = c(var.m, sum((Y[index == 1] - R.m * M[index ==
1])^2))
var.x = c(var.x, sum((Y[index == 1] - R.x * X[index ==
1])^2))
i = 1
j = 0
while (prod(index[29:33]) != 1) {
while (i < 33) {
if (index[i] == 1 & index[i + 1] == 0) {
index[i] = 0
index[i + 1] = 1
k = sum(index[1:(i - 1)])
if (k > 0) {
index[1:k] = 1
index[(k + 1):i] = 0
}
y.simple = c(y.simple, 33 * sum(Y * index)/5)
R.m = sum(Y * index)/sum(M * index)
R.x = sum(Y * index)/sum(X * index)
y.m = c(y.m, M0 * R.m)
y.x = c(y.x, X0 * R.x)
var.m = c(var.m, sum((Y[index == 1] - R.m * M[index ==
1])^2))
var.x = c(var.x, sum((Y[index == 1] - R.x * X[index ==
1])^2))
i = 1
j = j + 1
print(j)
}
else {
i = i + 1
}
}
}
var.m = var.m/4 * (1/5 - 1/33) * 33 * 33
var.x = var.x/4 * (1/5 - 1/33) * 33 * 33 # simple sampling
> mean(y.simple)
[1] 844.8968
> var(y.simple)
[1] 2678.197
#ratio with respect to M
> mean(y.m)
[1] 847.828
> var(y.m)
[1] 1156.886
> mean(var.m)
[1] 1111.191
#ratio with respect to X
> mean(y.x)
[1] 844.9335
> var(y.x)
[1] 221.964
> mean(var.x)
[1] 220.7296
模拟的均值估计结果为:三种方法均值估计为:844.90, 847.83, 844.93;方差为2678.20, 1156.89, 221.96;方差估计的期望为2678.20, 1111.19, 220.73。
这个结果有些出人意料:虽然采用方差估计式得到了低估的结果,但是低估的程度很低,甚至可以忽略不计。也就是说,即使在样本均值波动比较大的场合,比率方差估计的偏误并不大。
这就启示我们对方差估计式的含义重新思考。
三、方差估计式的另一种解释
比率估计量的偏误为:

如果假设每次抽样的残差
都是一个与
独立的随机变量,则有:

由Jensen不等式,得到

这解释了方差确实存在低估的,而且低估的比例为
。
采用之前模拟的例子计算这个比例,得到利用耕地面积作辅助变量的抽样方差为121356,但是方差的低估比例仅为1.0035。用此比例修正方差估计,结果为221.51,和真实值221.96几乎相同。
由此可见,即使在辅助变量波动较大,样本两较小,辅助变量抽样均值
方差较大的情形,方差低估的比例也可能是很低的,所以采用方差估计式依然可以得到较好的结果。
四、题外话
这个问题给我们的启示:统计学归根结底离不开数学,定量的分析才能给予问题严格的解决。
关于定性和定量的话题,让我想到关于正态分布均值的T检验问题,有的统计学教材上刻意强调了这样一句话:当样本量无限增大的时候,检验结果总是趋向于拒绝。果真如此吗?
上述论断的依据是:随着样本两n的增大,样本均值方差
,所以非拒绝域
收缩为一点,因此该拒绝域包括均值
的可能性为零。
事实上,该论断的谬误是显而易见的:虽然样本方差趋向于零,但是拒绝域包括均值的概率是恒定不变的,这是由拒绝域的构造得到的:

即使在大样本情形,虽然均值方差趋近于0,非拒绝域的区间非常短,但是只要样本服从原假设下的正态分布,样本均值偏离真实值的可能性也会很小。大数定律告 诉我们,在大样本的情形,样本均值哪怕偏离一丝一毫的概率都为0。因此,哪怕样本均值只有很小的偏离,拒绝零假设也是没有任何问题的。
这就再次说明定量分析的重要。
赞
这么好的文章只发一个“赞”字岂不是浪费?不引发出一些思考和讨论就可惜了。
关于第一点的最后一段话,我个人其实觉得并不一定是这样。因为在比率估计中真正有用的信息并不只是xbar或Xbar的取值,而应该还包括X与Y之间的相关关系。换句话说,我们持有着这样一种假定,那就是X与Y之间有着很稳定的关系,或者说两者之间有着很强的共性。如果我们通过观察发现xbar跟Xbar很接近,那么我们也会有把握认为ybar跟Ybar很接近,而这就体现了辅助变量的价值。
当然了,我现在说的这些显然也属于定性的范畴,合理与否,也确实还有待定量的验证。
而对于后面t检验的那个例子,我因为看的书太少所以没找到原话,但是就我的理解,这么说的本意应该不是针对理论上的情形,而是对实际的情况来说的。正如本文说的,只要样本服从精确的正态分布,那么毋庸置疑,不管样本方差怎么变,拒绝域包括均值的概率都是恒定不变的。但是实际的情况是,我们根本不可能在现实中得到这样完美的数据,因此只要实际的情况与理论分布有些许差异,那么样本均值就可能偏离真实值,但是理论上推出的结果不允许存在这样的偏差,因为这一点点的偏离就足以拒绝原假设。
确实,比率估计提高的因素主要就是你说的这个原因。模拟结果已经证明了这一点,可以参见三种方差的真实值的比较。
这篇文章主要是讨论了采用近似的方差估计究竟造成多大的低估,即分母波动程度究竟会对方差估计产生多大的影响。所以才做了这个模拟实验。结果验证了在实际情况中这种波动确实是可以忽略的。
我也隐约记得某本教材是这么说的,理论上这句话肯定是错的,但理论是假设了正态分布的,在这个前提下不存在什么“区间缩小以至于不太可能包含真实参数”的说法,数学公式是严格成立的;关键问题在于,假设前提是否真的成立,感兴趣的同志可以在各种分布的前提下做一下模拟,看这个t区间包含真实均值的概率多大。绝大多数分布的方差都是有限的,因此样本量增大导致区间倾向于缩小是必然的,而
是否以同样的速度趋近于
则成了问题。如果那本教材能从这个角度解释,我可以接受,若光是简单地看分母趋向于无穷大,未免太鲁莽了。
“当样本量无限增大的时候,检验结果总是趋向于拒绝”这句话究竟是对是错?
首先左辰的分析是对的,无论n如何变大,“无法拒绝的区间”如何缩小,对应的概率永远为1-a,检验方法永远有效。而且功效曲线越来越陡峭,效果越来越好。
但这句话的意思并非如此,它的本意是指由于“无法拒绝的区间”越来越下,以至于我们随便挑选的常数通常会落在拒绝区间这个现象。
比如,总体u=100,我们随便挑选一个常数103。
当n=10时,无法拒绝的区间为100±5,则无法拒绝u=103的假设
当n=1000时,无法拒绝的区间为100±0.5,则可以拒绝u=103的假设
可见,“当样本量无限增大的时候,检验结果总是趋向于拒绝”这句话的本意是指当样本量无限增大的时候,检验功效越来越好,拒绝区间越来越大,以至于它越来越能够拒绝“近似的假设”。
别忘了,假设检验中,“拒绝”是有力的,“无法拒绝”是无奈的!
通常,应该把我们真正想要的结论定为H1,然后拒绝H0,从而“认为”H1正确。