在研究两个变量的关系时,一般会先看看它们的散点图,在图中两变量的关系还是比较直观的,大致可以判断是否线性相关及相关性大小如何,是否是非线性相关等。而到底什么是相关呢?相关其实就是知道一件事对了解另一件事的帮助的大小。实际中,如果对某一事物不太了解,但是对与其有一定联系的另一事物有所了解,如果这种联系很强,那我们对于那件不了解的事物就有了更多的信息,或者说对这个不了解的事物有了更大的自信去预测。其实这也是研究中的一种常用的方法。
阅读全文 »
基础统计
统计学基础知识、学习经验等
漫谈相关与回归
比率估计为什么精确
比率估计表达式严格成立的条件是辅助变量的抽样均值波动很小,这和比率估计量的构造初衷是矛盾的。实际操作中,比率估计的方差低估难免存在。本文在一定假设下构造了比率估计的方差低估比例,并通过模拟实验证明即使在辅助变量波动较大,样本量较小的情形,方差低估的比例也很小,这是比率估计增加精度的重要因素。
阅读全文 »
不拒绝零假设意味着什么
由一道试题引发的一点思考
2008年统计学考研真题第四题“食品厂家说:净含量是每袋不低于250g。但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验”
(1)如果厂家自己检验,你认为提出什么样的原假设和备则假设?并说明理由。
(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备则假设?并说明理由。
……
作为统计专业的学生来说,熟悉得不能再熟悉了。但是,通过做上面的题目,我发现自己在理解假设检验的问题上犯了一个十分严重的错误。这个问题主要是由于我们学的教材上面写着:“假设检验要么P-value小于a拒绝原假设,P-value大于a接受原假设……”。后来再看看其他教材,发现绝大多数都是这样写的。其实“P-value大于a接受原假设”这种说法是错误的。
P-value大于a的时候,结论到底是什么呢?最早提出这个问题的是:
E·皮尔逊问耶日·奈曼,在检验一组数据是否为正态分布时,如果没能得到一个显著性的 P值,那么怎样才能看这组数据是正态分布的呢?
费歇尔其实已经间接地回答了这个问题。费歇尔把比较大的 P 值(代表没有找到显著性证据)解释为:根据该组数据不能做出充分的判断。依据费歇尔的解释,我们绝对不会得出这样的推理,即没有找到显著性的证据,就意味着待检验的假设为真。这里
引用费歇尔的原话:
“相信一个假设已经被证明是真的,仅仅是由于该假设与已知的事实没有发生相互矛盾,这种逻辑上的误解,在统计推断上是缺乏坚实根基的,在其它类型的科学推理中也是如此。当显著性检验被准确使用时,只要显著性检验与数据相矛盾,这个显著性检验就能够拒绝或否定这些假设,但该显著性检验永远不能确认这些假设一定是真的,……”
所以假设检验的目的在于试图找到证据拒绝原假设,而不在于证明什么是正确的。当没有足够证据拒绝原假设时,不采用“接受原假设”的表述,而采用“不拒绝原假设”的表述。“不拒绝”的表述实际上意味着并未给出明确的结论,我们没有说原假设正确,也没有说它不正确。
举个例子来说:比如原假设为H0: m =10,从该总体中抽出一个随机样本,得到`x=9.8,在a=0.05的水平上,样本提供的证据没有推翻这一假设,我们说“接受”原假设,这意味着样本提供的证据已经证明m=10是正确的。如果我们将原假设改为H0: m =10.5,同样,在a=0.05的水平上,样本提供的证据也没有推翻这一假设,我们又说“接受”原假设。但这两个原假设究竟哪一个是“真实的”呢?我们不知道。
总之,假设检验的主要目的是为了拒绝而不是接受。
由一道试题引发的另一道试题
这让我想到2007年统计学考研真题第一题问:“正态分布的假定能不能用数据证明?”
其实也是关于假设检验的问题,具体内容可以参看:
统计学博文导读:统计分布的检验(谢益辉博客)
阅读全文 »
P-value:一个注脚
郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的):
P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。
The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true.
以下延续白话系列,解释一下,“什么是P值,什么是极端”,算是郑文的一个长长的注脚。
阅读全文 »
不得不提的P值
在论坛,经常发现有人发关于P值的帖子,搜索了一下,一共有29个关于P值的帖子。的确,P值是最常用的一个统计学指标,几乎统计软件输出结果都有P值。了解p值的由来、计算和意义很有必要。
阅读全文 »
决策与风险
/*读书笔记,白话统计系列,力图用普通话讲述统计学的基本概念。这里的题目是“决策与风险”,讲的就是两类错误(type I and type II errors)。以下改编至维恩堡《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986),英文名叫Statistics: An Intuitive Approach By George H. Weinberg and John Abraham Schumaker。这书几近绝迹,当回文抄公,以期重见天日。*/
阅读全文 »
刘重杰:和统计接触的经历
首次遇到益辉应该是在一个论坛上,讨论了各类专业统计软件的使用情况,就聊到了R。接着就开始到cos灌水,慢慢就认识了这个领域里面的很多朋友。而益辉等兄弟姐妹为在统计这个领域的推广“正确”方面实在是做出了极其有益处,乃至可以称为辉煌的工作。
我对统计学所知实在是业余水平。首先,我没系统正式的学过统计专业的课程;最多算一个自学者。其次,所从事的正式工作和职业中,和统计直接相关的几乎没有;最多只是擦边球式的“应用”了下统计技术和相应的软件。所以受邀而来,实在是汗颜。不过接触统计学倒是比较多,也足见这门学科的普遍和重要性。
阅读全文 »
统计学专业应该使用什么样的统计软件(写给在统计学院学习的学弟学妹之四)
过去两三年为院刊写了一些稿件,其中一部分是统计技术层面的,一部分是方法论和原则层面的,姑且作为对低年级统计学子们的一些学习建议,目的在于让大家学会擦亮自己的眼睛,辨明统计学的是与非。文章观点仅为一家之言,而且大多数情况下这些观点相对于流行的、教科书式的观点可能有显著差异,因此请各位小心阅读。
这次要求我写一篇关于统计软件的介绍,我想我也没这个本事去介绍所有的软件,因此私自把主题改成了“统计学专业应该使用什么样的统计软件”,窃以为这样写更有意义,不然这篇文章就变成了死板的统计软件使用手册。
关于统计软件,随着时间的推移,我最终以R语言为中心,基本废弃了其它工具的学习,换句话说,其它统计工具对我来说作用有限,不符合本人的统计分析思想和使用习惯。长话短说,本文的摘要为三个字:用R吧!
阅读全文 »
我的一些统计方法观(写给在统计学院学习的学弟学妹之三)
记得高中很讨厌政治课,但是有几个词烙在脑子里,想忘都忘不掉,比如“世界观”和“方法论”,当时那位老爷爷整天给我们灌输这些玩意儿,搞得我现在对这些词汇仍然如鬼神般敬而远之。这次我要写的是关于统计方法的一些思考(主要是思路),但又不太多涉及方法本身的推导证明,因此只好称之为“方法观”。
现在每天感慨统计领域太宽,模型太多,方法太杂,让人把握不住方向。不过上次高校研究生统计论坛我仍然不知天高地厚地选了一个讲述统计思想的题目,其原因正是觉得方法太杂,应该理出一些头绪来;当然我所理的头绪也仅仅是很局部(local)的,管中窥豹而已。下面我先举几个例子说明一些统计方法的发展思路,这些也是我在上次论坛上发言的部分内容:
阅读全文 »
关于搜索统计资源(写给在统计学院学习的学弟学妹之二)
关于搜集资料,其实是许久以来我很想谈的一个话题,因为身边太多太多的同学在这方面根本就没入门。找点资料,也不知上哪里找。顶多Baidu一下,高级一些的就Google一下,就算完事了。
阅读全文 »
