抽样调查

抽样调查、调查设计

比率估计为什么精确

By 左辰 @ 2009/06/01

比率估计表达式严格成立的条件是辅助变量的抽样均值波动很小,这和比率估计量的构造初衷是矛盾的。实际操作中,比率估计的方差低估难免存在。本文在一定假设下构造了比率估计的方差低估比例,并通过模拟实验证明即使在辅助变量波动较大,样本量较小的情形,方差低估的比例也很小,这是比率估计增加精度的重要因素。
阅读全文 »

Tags: , , , , ,
Posted in 基础统计, 抽样调查, 推荐文章, 概率论与数理统计 | 5 Comments »

从调查报告中的比例数字说统计人如何甄别统计假象

By 谢益辉 @ 2009/04/27
从调查报告中的比例数字说统计人如何甄别统计假象

新华网刚发布了一个关于学生冬季长跑的调查结果(于2009年4月27日13:52访问),一共调查了100人,结果中却出现了92.79%这样的比例数字,有常识的读者都知道,世上不存在0.79个人,因此这里面必然有某个地方是错的(姑且不妄言造假)。这则消息让我马上想起《统计陷阱》这本书,我们生活中有多少陷阱呢? 从消息编辑人员的角度来说,他们可能觉得保留两位小数显得“精确”,而这种“精确精神”从数学的角度来说显得既可爱又可笑,如果小数位能表示精确,那何不保留100位小数呢? 从统计人的角度来看,对这种调查报告中的比例数字应该有足够的警觉。很多调查报告并不会告诉我们究竟样本量多大(在这一点上新华网的调查网还比较诚实),这种情况下,我们应该弄清究竟调查了多少对象,当样本量很小的时候我们会怀疑这个调查的代表性。当我们看到比例66%的时候也许能想起来这是2/3(猜测样本量是3的倍数),但对29.1667%这个比例我们未必能很快反应出来分子和分母是多少,若报告公布方没有说明样本量,我们只能自己猜测;对于667这样的数字,我们很容易猜测这是6循环的四舍五入。最终大概思路就是拿比例去挨个乘以一系列整数,看看哪个结果接近整数,从而“还原”原来的分式n/N。以下是简单的R代码: > digit = ((1:100) * 0.29166666)%%1 # 整除1之后的“余数” > plot(digit, ylim = c(0, 1)) > idx = which((1 - digit) < 1e-05 | (digit - 0) < 1e-05) # 与0或1很靠近时 > points(idx, digit, pch = 20) > abline(v = idx, lty = 2) > axis(3, idx) > idx * 0.29166666 7 14 21 28 我们很容易发现分母(样本量)是24的倍数,因为上图中24的倍数乘以29.167%得到的结果很靠近整数;而具备某种特征的样本数量为7的倍数。根据具体的调查背景,我们可以自己猜测报告方究竟调查了多少人:24人?太少;960人?为什么不是1000人?…… 上面只是统计侦查的小游戏而已,当我们具备更多统计知识储备之后,便可以去考虑一些具体的统计模型输出是否存在造假嫌疑。我想,P值在0.05之下且很靠近0.05的时候,或P值一律接近于0的时候,我们不妨以小人之心揣测这个模型也许有问题。当因子分析中,50个变量能根据载荷被准确划分到作者预先设定的5个因子中时(5列因子载荷一律都是只在某个因子上取值极大),这个分析也许存在嫌疑。当然,所有的“小人之心”的前提假设都是:理想情况在现实中是不容易出现的(这是赤裸裸的假设检验逻辑)。
阅读全文 »

Tags: , , , ,
Posted in 抽样调查, 数据分析, 统计软件 | 18 Comments »

搜索

推荐阅读

大规模系统内变量关系的研究以及可视化-1因果分析

By 黄帅

引言——变量关系分析的广泛意义
在统计分析中,有这样一类具有普遍意义的问题:在测得了(取样)一个变量系统的数据以后,如何从数据中发现并且验证这些变量之间的关系?了解…阅读全文 »

用GERT方法求解两个抛硬币问题

问题:一枚均匀的硬币,一直抛直至出现HTT(H表示正面,T表示背面),期望要抛多少次?一直抛直至出现HTH(即正反正),期望要抛多少次?假定出现H面的概率为p,出现T面的概率为阅读全文 »

分月存档