P-value:一个注脚

郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的):

P值就是当原假设为真时,所得到的样本观察结果更极端的结果出现的概率。

The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true.

以下延续白话系列,解释一下,“什么是P值,什么是极端”,算是郑文的一个长长的注脚。

回到上次的硬币试验,那是一次二项试验,每次试验投100次,记下出现正面的次数,比如,如果

每次出现的正面数都是50,你就有把握认为这是一枚均匀的硬币;

正面数等于45或者等于55,你就有一点点的怀疑它是均匀的;

正面数等于30或者等于70,比较怀疑;

正面数等于10或者等于90,非常怀疑。

如上,正面数和反面数的差异越大,你就越有把握认为硬币不是均匀的(拒绝原假设)。重复一下P值的定义,“P值就是当原假设为真时,所得到的样本观察结果更极端的结果出现的概率”,把这个定义套入上述硬币试验的场景中,比如你观察到“正面数是10或者90,正反面次数差异是80”:

如果原假设为真(硬币是均匀的),P值就是你投100次,所得的正反面数差异大于80的概率。

如果这个P值很大,表明,每次投100次均匀的硬币,经常有正反面差异大于80的情形出现。如果这个P值很小,表明,每次投100次均匀的硬币,你很难看到正反面的差异会超过80。

以前说过,10-90是A博士的接受区域。如果一枚硬币投出的正反面次数,差异大于80,——这真是一个“极端”的情形,连保守的A博士看了都摇摇头,不能接受原假设,只好认为原假设不对,硬币是有偏的。这里的逻辑是:

在假定原假设为真的情况下,出现所看到的偏差(正反面差异为80),是这么地不可能(P值很小),以至于我们不再继续相信原假设。

参考资料:

1. 维恩堡《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986,Statistics: An Intuitive Approach By George H. Weinberg and John Abraham Schumaker)

2. Statistics I: Course Notes, 2008 SAS Institute Inc. Cary, NC, USA

P-value:一个注脚》有21个想法

  1. 在假定原假设为真的情况下,出现所看到的偏差(正反面差异为80),是这么地不可能(P值很小),以至于我们不再继续相信原假设。

    ……是这么地可能(P值很大),以至于我们不再继续相信原假设……

    1. [email protected]说道:

      我也觉 得还是不明白:
      在假定原假设为真的情况下,出现所看到的偏差(正反面差异为80),是这么地不可能(P值很小),以至于我们不再继续相信原假设。

      ……是这么地可能(P值很大),以至于我们不再继续相信原假设……

      P值大--》原假设不成立? 还是P值大--》原假设成立?

  2. 不,出现了我们认为不大可能的事件我们才不相信原假设,如果可能的话那我们就没有理由拒绝原假设了

  3. 谁来给我解释一下P值,检验水准和一类错误概率的问题. 比如,检验水准为0.05,现在p值为0.02,那么应该拒绝零假设,那么问题来了:犯一类错误的概率为多大(究竟该是0.05还是0.02),若按统计教材上解释两类错误那里说的,应该是0.05,但是按假设检验原理:出现不利于零假设的统计量的概率是0.02,也就是说我们的结论犯错误的概率是0.02(一类错误?)。
    这个问题到底怎么解释,麻烦各位告诉我一下啊,反正我是混乱了。

      1. 方积乾《卫生统计学》第五版,倪宗瓒《医学统计学》
        都是说的犯一类错误的概率为0.05(理由是:如果零假设成立,那么按照同样的方法在零假设规定的总体中重复抽样,那么每100此检验结论中平均有5次拒绝零假设,即犯一类错误),而刘定远《医药数理统计方法》中又说,犯第一类错误的概率不超过检验水准0.05,但是根据假设检验原理,我觉得犯一类错误的的概率好像应该就是P值吧。好困惑啊!!!

      2. 那么,胡江堂的上一篇文章《决策与风险》中的下面一段是不是也意味着一类错误的概率应该是检验水准α呢:

        上面的对话应该让大伙体会到了一些假设检验的意思。可以总结一下,对照下面的表格,思路会清晰一些:

        判定 \ 假设 真 假
        拒绝 第I类错误α 没有错误1-β
        接受 没有错误 第II类错误β

  4. 我终于理解了!finally!
    P value就是,当你设定原假设是真的,然后你计算出的p value却是如此之小,以至于你手边观察到的数据在p value下只可能是极小概率事件,但是它竟然就这么发生了!不可能的事情就这么活生生地发生了!你说,你还能相信你原来假定的那个原假设么?不能,因此拒绝。

    感谢江堂兄啊,总算。

    1. 哈哈,就是这个意思。

      比如说P=0.05,意思就是说1000次试验只有5次会不符你手边观察到的数据,
      所以可以知道现在的情况是多么不常见(即小概率事件竟然发生了),
      所以应该拒绝原假设。


      《统计学基本概念和方法》p.183
      高等教育出版社 吴喜之 程博译

  5. 其实我觉得一直用抛硬币实验并不见得是一个好主意。根本地理解p-value好要从构建test statistic开始说起,这不可避免地牵涉到pivotal quantity…

  6. 我觉得一直 强调 “正反面次数差异是80” 容易让初学的人对p值概念产生误解, 我觉得更好的是改成, “可以将”p值较大”理解成– 有更多比 观察结果 更极端的值, 也就表明 观察结果更靠近于 真平均值” 只是个人见解,希望有用

  7. 第一类错误概率就是P值,这有什么怀疑的……
    谢大侠总算犯了一个低级错误。
    第一类错误概率就是显著性水平,阿尔法!!^_^

  8. 社会统计学的老师是这么表述的。
    首先有一个虚无假设在这里。也可以叫做原假设。我们希望推翻他。
    然后,所谓P,就是当 虚无假设 为正确时, 我们错误地推翻这个正确假设的概率,就是P的大小了。

    可见,P足够小的时候,参数的t-ratio离原假设(西塔=0)的距离如此之远,代表这种差异是稳定而明显地存在着,这种稳定而明显存在的情况使得我们有信心去否定原假设。通常,社会统计设P为0.05.

  9. 首先,我们讨论p值千万不要忘了我们到底在干什么,而不要为了解释而解释,这样错误的概率一般来说比较大;p的提出源于检验,而检验是因为我们手上只有样本,p指的是某类样本出现的概率,而江堂兄每次掷硬币已经得到了总体信息。而一个原假设对就是对错就是错,本身和概率没关系。

发表评论

电子邮件地址不会被公开。 必填项已用*标注