中国人民大学统计学院《主文献研读》博士生课程(2009年春)

本页面为2009年春季中国人民大学统计学院《主文献研读》博士生课程网页,旨在提供课程信息通知、加强师生交流与讨论,请选课的同学定期注意页面的更新。请各位教授的弟子帮忙在课前预告或课后总结(Email给页面负责人),若老师同意公开课件,这里也可以上传课件;或以加密的方式上传。谢谢!

本页面负责人:谢益辉;联系方式见上面的作者信息。

一、课程安排

第一讲 杜子芳教授:统计学的根本问题与发展脉络

相当一部分的《女士品茶》……请杜老师的学生补充一下。

第二、三、四讲彭非教授:生命统计模型的演变及研究

参考文献:

Heligman L. et Pollard J. H. (1980), The age pattern of mortality, Journal of the Institute of Actuaries (Oxford), part I N° 434 (june) , Vol. 107, pp.49 80.

Pollard J.H. (1982), The expectation of life and its relationship to mortality, Journal of the Institute of Actuaries, 109, p. 225-240.

请彭老师学生补充一下。

第五讲 金勇进教授:缺失数据问题研究

主要参考书:

  1. 《缺失数据的统计处理》,金勇进、邵军著,中国统计出版社,2009,1
  2. 《缺失数据统计分析》,R.Little & D.Rubin著,孙山泽翻译,中国统计出版社,2004,9
  3. 其他参考文章:针对不同方法,上述两本书中列有参考文献

课程总结

(具体内容论述可参考《缺失数据的统计处理》一书)

一、关于缺失数据

  1. 常见的数据缺失模式为:单变量数据缺失、多变量数据缺失、单调数据缺失、数据缺失一般模式。也有书上说6种,另外两种为文件匹配模式,因子分析模式
  2. 缺失机制描述了缺失数据与数据集中变量值之间的关系, 处理缺失数据方法的性质依赖于这些机制中变量之间相依关系的特征。
    • 完全随机缺失(MCAR)
    • 随机缺失(MAR)
    • 取决于协变量的缺失(CDM)
    • 非随机缺失(NMAR)
    • 取决于随机影响的缺失(REDM,常见于纵向数据中)
    • 取决于前期的缺失(常见于纵向数据中)
  3. 主要统计处理方法:对缺失数据的统计处理,有三大类方法:加权法、插补法、参数似然法。

二、对缺失数据的研究几个研究阶段

  1. 启动期(1915-20世纪50年代)
    • 最先提出缺失数据问题的人是Bowley(1915),1926年又进一步强调控制各种误差源的必要;Deming(1940)提出对多变量逐一加权(Raking)方法;Hansen(1943)提出按照入样概率的倒数加权;Politz-Simmons(1949)提出著名的按被调查者在家时间加权的Politz-Simmons法。总体上看,研究成果不多,水平也有限。
  2. 发展期(1950-1995)
    • 提出处理缺失数据的各类方法。我们书中介绍的基本方法几乎都是在这个时期提出的;如校准加权,多重插补,EM算法,等等;
    • 研究从理论层面向应用层面拓展,注重调查的操作层面,对实施调查中怎样减少缺失数据有许多的讨论;
    • 出现一批在该领域研究有代表性的著作,例如:Kalton的《Compensation for Missing Survey Data》;Little RubinStatistical 的《 Analysis with Missing Data 》;Groves(1989) 的《 Survey Errors and Survey Cost 》;Lessler和Kalsbeek(1992)的《调查中的非抽样误差》。最为经典的,由一批专家共同完成的《 Incomplete Data in Sample Survey 》(1983-1985)一套3本的著作中,介绍了缺失数据有关理论、方法和案例的比较研究,是该领域研究的必读书目。
  3. 1995年以后的第三阶段
    • 方法的深入研究和不断完善时期。这个时期并没有提出对缺失数据进行处理的全新思想,但有许多方法的改进和扩展,进行了方法的比较研究。大量现代统计方法在缺失数据研究领域的应用,带动了这一领域的蓬勃发展。如Jackknife和 Bootstrap方法在缺失数据领域中的应用。至今,缺失数据的问题研究仍是国际前沿的热点问题之一。

三. 目前的前沿性研究

  1. 已有方法的改进和扩展
    • 例如,以往研究主要集中在可忽略的缺失机制,不可忽略的缺失机制仿佛是个禁区,因为研究的难度大。现在已经有一些学者开始涉足。
  2. 近年来对纵向数据缺失问题引起更多的关注,因为处理纵向数据缺失的场合越来越多。
  3. 方法的比较研究
    • 关于多重插补稳健性问题研究;热卡插补和回归插补的效果比较研究;在不同缺失数据比例下对各种插补方法进行的比较;对总均值插补法、分层均值插补法、热卡法和回归插补法等进行的比较研究。
  4. 应用研究
    • 随着理论的发展,缺失数据处理方法的应用领域也在不断拓宽。如将插补法推广应用到单位无回答;将多重插补应用到小样本调查;关于小样本调查多重插补估计量的合并问题;多重插补在不完全纵向数据中的实现;讨论缺失数据的领域也越来越广泛,从传统的社会调查到医学、生物等。
  5. 方差估计
    • 处理缺失数据的一个重要问题是,经过处理后(如插补、加权)估计量的方差是什么?没有缺失数据,估计量已经有完整的方差估计公式,有缺失数据后,原来的公式不再有效。现在,在许多场合下,不够专业的人士用完全数据的方差公式使用在经过缺失数据处理后的数据集上,这样是有问题的。在存在缺失数据情况下,方差估计有三类方法:(1)直接推导法;(2)多重插补法;(3) 重抽样方法。

大力感谢陶然撰写了本次课程小结!

第六、七讲 高敏雪教授:关于发展的统计描述与分析

参考文献:《经济发展的前沿问题》(美)结拉尔德·M·梅尔等 上海人民出版社

第六讲幻灯片下载:

第七讲小结:待发。

第八讲 张波教授:正倒向随机微分方程及其应用

有关随机微分方程及其在金融保险中的应用研究的(发表在随机过程及其应用、随机分析及其应用、数理金融等国际著名学术期刊上)最新文献

第九讲 赵彦云教授:国际竞争力研究

《国际竞争力统计模型及其应用研究》,赵彦云等中国标准出版社2005年

第十讲 赵彦云教授:创新活动统计调查和创新指数研究

《中国创新指数报告》纪宝成 赵彦云主编 中国人民大学出版社2008年

第十一讲 王晓军教授:养老金精算前沿问题研究(1)

国外文献

第十二讲 王晓军教授:养老金精算前沿问题研究(2)

国外文献

第十三、十四讲 何晓群教授:六西格玛管理与统计应用

[1]THomas Pyzdek.孙静译 六西格玛手册.北京: 清华大学出版,2003

[2]何晓群 六西格玛管理丛书 1–6册 北京: 中国人民大学出版社2003

第十五、十六讲 易丹辉教授:待定

请易老师的学生张同学或周同学或欧(老师?同学?)尽快确定吧,俺们翘首以盼呐。

第十七、十八讲 袁卫教授:待定

请刘同学看能不能确定内容,俺们也“望穿秋水”中……

二、考试安排

俺不知道。



关于谢益辉

RStudio码了个工,Iowa State University统计系博了个士。统计之都网站创办者;研究兴趣为统计图形及数据可视化,对统计模型方法的发展感兴趣但不喜欢纯粹抽象的数学理论,以直观、实用为学习标准;偏好以R语言为工具;Email:xie@yihui.name;个人主页:http://yihui.name

中国人民大学统计学院《主文献研读》博士生课程(2009年春)》有23个想法

  1. 很好很强大!顺便挑几根刺——本人的怪癖——“作者信息”和“版权声明”最末的标点符号不妨去掉,下文也有类似的问题(句末有的有标点符号,有的没有,最好统一一下)。老大不会咒我吧……

  2. 对于金老师的课程,俺先带头吼一嗓子:

    仍然是我课间休息时问的问题,关于验证插补有效性的方法,不知道目前是否有借用交叉验证(cross-validation)的想法?我觉得这是一个很自然想法。在非缺失的数据中,人为“删掉”部分数据,看插补的数值和真实数值的差异有多大。

    1. “人为“删掉”部分数据”必须假定为randomly,如果用是这样,即使是缺失75%的数据,也可以恢复。但是如果是fix的,即便是缺失10%,天王老子也没有招。可以参考 Youngjo Lee 2006年以来的研究。

  3. 我想验证插补有效性关键在于插补后得到的估计量的方差是否最小。在通常不知道缺失的真实值的情况下,我们只能通过对比不同插补方法情况下估计量的方差来验证其有效性。
    谢所说的用人为制造缺失,然后再通过与真实值比较来验证插补方法的思路是自然合理的,不过其本质最终也需要通过验证插补后的目标估计量方差是否最小,因为插补方法很多取决与缺失机制的假定。在金老师的《缺失数据的统计处理》这本书里后面有些例子就是采用人为制造缺失来验证不同插补方法的有效性的,但最终都要归结为估计量方差的大小来比较。

  4. 我觉得方差(variance)和偏差(bias)都应该是考量插补方法的指标,仅仅是方差小的话,有可能偏差大;插补的麻烦就在于不知道真实值,这种情况下我们可以拿那些真实值作为测试对象,这种情况下更侧重的是偏差。业内是否有这种比较呢?

    例:对于n个样本点中的缺失值,现拟定插补方法为“用第1个观测值”插补所有缺失值,这种情况下方差为0,但显然不一定最优。

  5. 谢说的很对。方差(variance)和偏差(bias)都应该是考量插补方法的指标。我昨天考虑时过分强调了方差的重要性,而将偏差(bias)扔在了一边。在目前讨论插补结果好坏的标准中,确实是两者兼而有之,实在不好意思!!!
    不过你所举的例子是不是理解有偏?即便用方差来衡量,也是要拿插补后的所有完整数据去算方差。如果都用一个插补值,只要这个插补值不和其他所有非确实的数据相同,估计量的方差都应该不是“0”吧?难道我没理解你的意思?

  6. 哦,我理解错了,看来还是得讨论一下才行。我以为是插补值的方差呢,因为有时候插补不一定是一个确定的值,所以对插补值的估计可能不稳定,因而有方差。

    你说的是估计量(如均值)的方差,这种情况下如果插补值都是固定常数,那么方差也会倾向于小啊……

  7. 从误差角度来讲,方差(variance)和偏差(bias)都是衡量不同插补方法结果好坏的标准。此外还有似然分布、相对偏倚等标准。

    从处理缺失的方法来看。传统的缺失数据处理方法,例如加权调整法,插补法这两大类方法更多采用方差、偏差或两者的结合均方误差(MSE)作为衡量标准;而参数似然估计法则更侧重于数据总体分布的角度来衡量插补的好坏。

    从具体的应用来看,对于纵向数据和层次数据的缺失进行处理时,需要根据实际应用情况将以上几种标准结合起来作为参考。对于抽样数据的方差估计,从抽样误差的角度,更多的考虑了在处理缺失后,对于得到估计量的方差估计方法讨论(哈哈,这一点正是我上面讨论说关注的,但站的角度偏了,仅适用于考虑抽样误差的情形。)

    具体内容论述请参见:金勇进,邵军。《缺失数据的统计处理》。中国统计出版社,2009年1月版。

  8. 谢谢,看来还是得去整一本书回来看啊,不过个人感觉书读得越多心里越没底;寒假我在家看Cook & Swayne的Interactive and Dynamic Graphics for Data Analysis (With R and GGobi)其中有一章讲Missing Values,说MAR和MCAR等机制实际上不容易验证,做了这些缺失机制的假设对于数学公式推导来说确实有很大的便利,但谁来验证缺失机制呢?前面提到的Cook & Swayne的书从图形的角度去检查缺失值与观测值之间的关系,可能是手段之一吧。

  9. 对吧,我感觉从某种意义上来说,缺失机制正是为了后面论证不同缺失处理方法及性质所做的理论前提假定,目的当然是为了自圆其说,构成严密的理论体系。

    至于验证,有些情况下,实际当中能够根据数据缺失的特征来套用某种缺失机制,但有时候确实很难说清楚属于那种缺失机制。

    你看的那本书里作者从图论角度来验证缺失处理的好坏应该很有新意!

  10. 回楼上:MAR, MCAR, 还有MNAR之类可以通过敏感性分析得到区分,用的主要方法是local influrence,并不是所谓的“很难说清楚属于那种缺失机制”。相比MAR和MCAR的区分,其实我们更关心的是MNAR和MAR的区分,以及MNAR中不同类型的区分(如缺失可能与缺失时的当前状态有关、甚至与未来的状态有关等复杂情形)。事实上,已早有学者做出论述及推广。如Geert Verbeke http://perswww.kuleuven.be/geert_verbeke
    Linear Mixed Models for Longitudinal Data
    这里还有一个Sensitivity Analysis under Linear Mixed-effects Models for Dropout Data (SA.DO.LME)的简单在线分析程序可供参考???
    说明了确实可以对缺失类型做出定量的区分。另外,邵军的研究具有很强的参考意义。强烈不同意“邵军教授数学公式推得快,但在计算机时代这个优势可能会变弱”的论述。理论算法始终是计算的灵魂。只不过太多中国教授不愿意写程序就是了。

    1. 非常感谢齐韬提供的链接!好好学习一下!有功夫也请你给我们更详细介绍一下啊 :mrgreen:

      我写的内容可能严重有偏,金老师要表达的意思应该是现在这个时代中计算机对理论推导会有很大帮助,如Bootstrap的盛行很大一部分仍然得益于计算机的发展,现在难以想象Pearson时代的一大群妇女在大房间里手工计算的场景……

  11. 谢谢齐韬的指教与提示。我用的是“有时候确实很难说清楚属于那种缺失机制”,请不要把我这句话理解成绝对口吻,我并没有否认关于缺失机制的可验证性。以我目前的涉及,我也没有能力对这些不甚熟悉的内容做出严格的论断。

    从目前的缺失机制归纳来看,可以分为六种缺失机制,分别是MCAR、MAR、CDM、NMAR以及这本书中说提出的取决于随机影响缺失(REDM)和取决于前期数据的缺失。你说提供的方法很值得我们进一步学习,特别是针对其中几种机制的验证,我想关于其他机制的验证方法应该也有,而且需要我们进一步深入研究与讨论。

    在关于缺失机制的验证以及不同机制下的缺失处理方法这些都值得感兴趣的人们进一步深入研究。

  12. 感谢谢益辉和陶然的回复,希望大家的努力可以为这方面的研究添砖加瓦。要是可以像MIT那样挂一部分报告的视频或音频出来就好了,以进一步提升这个板块的学术性与学习性。

    1. 这个估计在国内再过20年也未必能实现,很多老师都不愿意把课件放在网上,根本不必说视频和音频了……我们先挣扎着争取一下吧 🙂

  13. 既然是要鼓励大家了解统计、学统计,就应该做个模范才是!
    哎,中国自古以来都是这样,都把自己那点东西揣着捂着,到死了还要带到坟墓里去!

    1. 这话可能极端了一点,作者和读者都有责任吧,如果所有的读者都懂得尊重知识版权、懂得在自己的工作中向别人致谢,而不是抄了也不吱声,那么原作者们可能会愿意分享他们的工作;国内的科研风气实在太差,连院士都不能“免俗”,让其他人自觉遵守规则恐怕更难。要形成一个真正分享的学术氛围,如我前面所说,看20年后有没有戏吧。

      各位看官一起努力。

  14. 路过,原来在讨论缺失机制的检测问题。我来提供几个参考文献:
    1.can one assess whether missing data are missing at random in medical studies?
    2.a test of missing completely at random for multivariate data with missing values
    3.detecting covariates with non-random missing values in a survey of primary education in Madagascar
    4.a test of the missing data mechanism for repeated categorical data
    5. distinguishing “missing at random” and “missing completely at random
    6. a test of missing completely at random for generalised estimating equations with missing data
    懒得打字就打了文章标题,都是比较老的参考文献,最早的一篇1988年发表,都可以在JOSTOR下载到。目前SPSS采用的就是“a test of missing completely at random for multivariate data with missing values”一文提出的方法。
    曾经想作为博论来做的,后来。。。,黄了:(。
    数学功底不错的可以扑腾一下~

  15. 請問:

    是否有 “金勇进教授:缺失数据问题研究” 課程更詳細的內容?
    以及是否可以代購其兩本參考書目?

    謝謝!

  16. 非常棒!能否 有相应的资料让大家下载学习一下!谢谢!

发表评论

电子邮件地址不会被公开。 必填项已用*标注