如何设计一个试验

R·A·费歇尔爵士说在试验设计中经历的不是一个试验而是一种经验。

在静静地看了几遍David Freedman等著的《统计学》中关于试验设计的部分后，总觉得应该写点东西发泄一下。该书自从买来就一直放在书架很久没动，也懒得动，因为翻翻前面觉得太简单。最近心情比较平静，翻了翻试验设计部分，同时思考现实中的类似例子，觉得挺有味道的。

试验设计包括很多内容，比如大家可能都熟知的正交表构造、区组设计、拉丁方设计、饱和设计等，而书在这部分所说的试验设计主要讲在实际中如何设计一个试验，尤其是只考虑单因素的试验设计，即如何设计一个试验或通过观察研究来辨别一个因子（定性或定量）是否会带来某种特定结果，比如吸烟是否会导致肺癌。我们都知道，一个因子的效应是否显著，最常用的办法就是对照比较了。但是如何对照比较？在现实中很多人都会犯错，因为大家都往往会忽视比较的前提或基础，夸张一点说就像一个大人和一个小孩进行100米赛跑，他们的最终成绩是没有比较的意义的。

比较好的一个方法就是随机对照双盲试验：比较对照的基础是要在分组之前保证试验对象除了待研究的因子之外其他条件尽可能相似，或者说来自于同一母体；然后随机分组，比如用抛硬币决定分组等；“双盲”即试验对象和评估反应的人员对于分组一无所知，只有试验研究人员知道所有的分组。理论能给予也许就是以上一些文字，而在实际中具体设计这样一个试验时发现很多问题迎面而来。有时真的不得不感叹“实践处处皆智慧”，难怪说试验设计不仅是一门科学还是一门艺术呢！

举个例子说明随机对照双盲试验（我也是借花献佛，引用书中的例子，主要还是实践经验的匮乏啊！）美国在1916年遭受了脊髓灰质炎的袭击，受袭击的主要对象是1、2、3年级年龄段的学生，后来开发出了一种疫苗，然而该疫苗对于防止脊髓灰质炎是否有效呢？具体做试验时如何选择试验对象，可以随便选一个学区吗？这种疫苗会不会带来更大范围的脊髓灰质炎儿童呢？（人毕竟不是小白鼠啊！尤其是药物试验便会涉及到这样的道德问题。）最后美国卫生总署选定的学区是据信脊髓灰质炎最严重的一个学区。确定了这个学区后，就要来选择具体的试验对象，选哪个年级呢？具体又选哪些儿童呢？在试验过程中有相当部分孩子的父母因为各种原因拒绝参加这样一个试验。另外，在试验过程中还发现生活在卫生条件较差家庭的儿童由于来自母亲的抗体而能经受更厉害的传染，而生活在卫生条件好家庭的儿童往往更容易感染脊髓灰质炎。最后找到这样一个母体：试验对象的父母均同意注射疫苗，家庭背景等方面相似，那些看来会明显影响处理因子的混杂因素都尽可能相似了。在确定了这样一个母体以后再分组，负责评估反应的医生是不能参与分组的，主要是为了减少医生的主观偏性。一个不错的方法就是抛硬币，正面的一组，反面的一组，试验的儿童虽然可能知道他抛出的正面还是反面，但却不知道自己到底是处理组还是对照组。接下来试验就可以正式开始了。

其实随机对照试验主要还是要避免来自各方面的偏性，从而保证研究结果的准确性。而偏性主要来源于其他因子效应的混淆。

随机对照试验看来是非常不错的测定某一因子的效应是否显著的方法，然而在实际中却很少有这样的施展机会，比如研究吸烟是否会导致肺癌，吸烟者哪有时间陪你做一个为期十年的试验，这时就需要从观察中分析研究。在观察研究中依然要运用随机对照的思想，比如我们研究吸烟与心脏病的关系，那么吸烟以外的一系列因素就要控制好，比如限定是男性吸烟者，处于某个年龄段的吸烟者（作为处理组），另外该年龄段的男性未吸烟者作为对照组（其中可能还有其他的一些因素需要控制，不一一列举），然后跟踪记录。相关联并不等于因果。一般人的认识似乎是经常吸烟的人得肺病、心脏病的较多，但是不要忘记表面的现象可能是由很多因素混杂在一起而导致的，因此不能轻易判断两者之间存在因果关系。统计学教育我们，凡事不能从表面判断，原因是复杂的，我们要做的就是要找出真正的原因（就像电视剧《少年包青天》中的那句经典台词“真相只有一个”，呵呵），这也是统计学带给我乐趣的一个重要原因。

观察研究中还有这样一种情况：以某种检查和乳腺癌的关系为例，为了研究该种检查是否可以降低乳腺癌带来的死亡率，有62000名40至64岁的妇女被选作试验对象，她们被随机分到两个组，处理组中妇女接受年度的该种检查，而对照组则是做一般的常规性检查。但是跟踪发现处理组只有10800名妇女接受年度检查，有些拒绝检查（主要原因可能还是家庭经济状况）。另外对照组也并不会因为是对照组而不去检查，对照组中也会有一小部分人“偷偷”去接受检查。这样的情况又如何比较，如何得出研究结论呢？

说试验设计是一项艺术，是因为其中有很多经验或技巧的东西在里面吧，通过这些经验或技巧可以更好地对处理因子以外的混杂因素有一个较好的控制。因此，在具体做试验设计的时候更需要从实际出发，融入实际，发掘出真正的原因。

如何设计一个试验

刘飞燕