在论坛，经常发现有人发关于 P 值的帖子，搜索了一下，一共有 29 个关于 P 值的帖子。的确，P 值是最常用的一个统计学指标，几乎统计软件输出结果都有 P 值。了解 P 值的由来、计算和意义很有必要。

一、P 值的由来

R·A·Fisher（1890-1962）作为一代假设检验理论的创立者，在假设检验中首先提出 P 值的概念。他认为假设检验是一种程序，研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说，他认为假设检验是数据分析的一种形式，是人们在研究中加入的主观信息。（当时这一观点遭到了 Neyman-Pearson 的反对，他们认为假设检验是一种方法，决策者在不确定的条件下进行运作，利用这一方法可以在两种可能中作出明确的选择，而同时又要控制错误发生的概率。这两种方法进行长期且痛苦的论战。虽然 Fisher 的这一观点同样也遭到了现代统计学家的反对，但是他对现代假设检验的发展作出了巨大的贡献。）Fisher 的具体做法是：

假定某一参数的取值。
选择一个检验统计量 (例如 z 统计量或 Z 统计量) ，该统计量的分布在假定的参数取值为真时应该是完全已知的。
从研究总体中抽取一个随机样本 4 计算检验统计量的值 5 计算概率 P 值或者说观测的显著水平，即在假设为真时的前提下，检验统计量大于或等于实际观测值的概率。

如果 P 值 < 0.01，说明是较强的判定结果，拒绝假定的参数取值。
如果 0.01<P 值 < 0.05，说明较弱的判定结果，拒接假定的参数取值。
如果 P 值 > 0.05，说明结果更倾向于接受假定的参数取值。

可是，那个年代，由于硬件的问题，计算 P 值并非易事，人们就采用了统计量检验方法，也就是我们最初学的 t 值和 t 临界值比较的方法。统计检验法是在检验之前确定显著性水平 $\alpha$ ，也就是说事先确定了拒绝域。但是，如果选中相同的 $\alpha$ ，所有检验结论的可靠性都一样，无法给出观测数据与原假设之间之间不一致程度的精确度量。只要统计量落在拒绝域，假设的结果都是一样，即结果显著。但实际上，统计量落在拒绝域不同的地方，实际上的显著性有较大的差异。

因此，随着计算机的发展，P 值的计算不再是个难题，使得 P 值变成最常用的统计指标之一。

二、P 值的计算

为理解 P 值的计算过程，用 $Z$ 表示检验的统计量， $Z_C$ 表示根据样本数据计算得到的检验统计量值。

左侧检验 $H_0: \mu \geq \mu_0$ vs $H_1: \mu < \mu_0$

P 值是当 $\mu = \mu_0$ 时，检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率，即 p 值 = $P(Z_C \leq Z | \mu = \mu_0)$

右侧检验 $H_0: \mu \leq \mu_0$ vs $H_1: \mu > \mu_0$

P 值是当 $\mu = \mu_0$ 时，检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率，即 p 值 = $P(Z_C \geq Z | \mu = \mu_0)$

双侧检验 $H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$

P 值是当 $\mu = \mu_0$ 时，检验统计量大于或等于根据实际观测样本数据计算得到的检验统计量值的概率，即 p 值 = $2P(Z_C \geq |Z|\, | \mu = \mu_0)$

三、P 值的意义

P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果 P 值很小，说明这种情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P 值越小，我们拒绝原假设的理由越充分。

总之，P 值越小，表明结果越显著。但是检验的结果究竟是 “显著的”、“中度显著的” 还是 “高度显著的” 需要我们自己根据 P 值的大小和实际问题来解决。

不得不提的 P 值

郑冰

一、P 值的由来

二、P 值的计算

三、P 值的意义