概率论与数理统计

概率论基础与数理统计

用GERT方法求解两个抛硬币问题

By 刘飞燕 @ 2009/09/12

先较为详细地介绍GERT方法,然后使用GERT方法求解几个抛硬币问题
阅读全文 »

Tags: , , , , , ,
Posted in 推荐文章, 概率论与数理统计 | 11 Comments »

R中的极大似然估计

By 胡荣兴 @ 2009/07/19
R中的极大似然估计

介结了在R中如何实现极大似然估计的一种实现方法。当然其在R中还有其它的实现方法。
阅读全文 »

Tags: , , , ,
Posted in 概率论与数理统计, 统计计算, 统计软件 | 2 Comments »

统计学博文导读:内贾德大选作弊?流星撞飞机的概率?买双色球?

By 谢益辉 @ 2009/06/17
统计学博文导读:内贾德大选作弊?流星撞飞机的概率?买双色球?

“统计之都”站的“网站导读”栏目的设立是为了以简短的形式向大家介绍一些有意思而且有水平的统计学文章,不求理论之复杂,但求统计学之生活化,让大家看到一些统计学的“另类”面目。若这个目的达不到,那么我希望大家读完这些导读文章之后能说一句“哇,原来统计不是会计啊/不是做报表的啊/不是数学啊”也足够了。另外,现在网上很多文章都是抄来抄去(更恶劣的是不加出处的抄袭),我们觉得这种做法极其无聊,是对原始作者的极大不尊重,也容易造成以讹传讹误导不明真相的围观群众,本站这个栏目的建立,也是基于这一点考虑之上提供一种“引用他人文章”的示例,很傻很天真地希望互联网的抄袭现象能够有所收敛。言归正传: 一、用数字作弊要小心:关于内贾德的选票 日前伊朗的大选可谓轰轰隆隆,颇引人注目,内贾德在胜出之后却引来一片质疑,今日又有传闻说穆萨维才是真正的胜出者。总之疑云重重,那么让政治家玩政治家的游戏吧,我们从另一个视角来关注一下这次选举。密歇根大学的教授Walter R. Mebane, Jr.这几天一直在分析选票数据,今天的文章参见:Note on the presidential election in Iran, June 2009(注意论文和数据以及R代码都在更新中,如果不能访问,请到他的主页上找) 文章主要基于两点理论去检验选票数据: 本福特定律(Benford’s Law):生活中的数据里,1~9这9个数字在首位的出现并非均匀分布,例如1出现在一个数字的首位的概率约为1/3,而不是想象中的1/9,越往后的数字出现概率越低。不过,作者得到的选票数据是按地区汇总的,而对于汇总数据,我们往往难以发现它作弊的嫌疑,因为汇总数据倾向于符合本福特定律,从这一点上,作者没有找到足够的证据证明选票数据作弊; 检验离群点:手头的数据只有选票数,没有其它变量,这种情况下统计建模的局限性很大,似乎各种工具都施展不开,不过作者还是在“艰苦”的条件下建立了过度散布的二项回归模型(overdispersed binomial regression),因变量是二分变量(内贾德 vs 穆萨维),自变量是选票数,看看哪些地区的选票数有离群点出现,熟悉伊朗政局情况的人从这些离群点可能发现违背常理的现象(选票过高?过低?) 看来统计学家总是有办法拷问数据,不知咱国内是否有这样的统计学家呢? 想起本科上课的时候我们有一位老师提到陈毅元帅的一句话:“莫伸手,伸手必被捉。”在数据上,还是莫造假吧,只要有人较真,一定有办法看出来的。 二、飞机被流星撞到的概率多大:法航失事之后的计算 前几天,本站作者、COS论坛元老刘思喆用R计算了一下飞机被流星击中而失事的概率,发现一架飞机在11小时飞行过程中被流星击中的概率是双色球中一等奖概率的1/100,看样子可以舒口气,不过坏消息是,20年中被击中的概率就陡然上升到5%了。看来还是双腿走路可靠…… 然而我想知道的是: 过去20年有飞机被流星击中过么? Poisson分布合适么?或者,流星砸向地球的分布是什么?有没有天文学相关的实证呢? 三、让R帮你查看是否中了500万大奖:“懒惰”的彩民 这一篇依旧是把统计和R融入生活的刘思喆:500万?去买双色球!(被评论为标题党)彩民们每天眼巴巴对着彩票网以及自己的彩票的若干位数字看,实在是很辛苦,因此思喆老大体谅大家,挑灯夜战写了一段R代码,按照该文的描述,彩民们每天只要打开R,就知道自己有没有中奖。我提议,要是哪位读者因此中奖了一定要给思喆老大提成以及给统计之都捐赠! 我后来的想法是,干脆写个批处理文件(R CMD BATCH),开机自动运行好了,连R都不用打开。懒惰是创新之源,这话没错。 R还有很多“奇怪”的应用,在作者的主页贝吉塔行星中能找到更多。 四、其它文章 画函数曲线本来是一件简单的事情,为什么我们总是忘记初中的“描点法”呢:画曲线的通用办法:描点法画图(谢益辉) 标签云将词语文本的大小与其某种属性(例如重要性、出现频率)关联起来,因此标签云图可以直观展示一些词语的属性。例如文本越大表示出现频率越高,那么一眼看去,最大的词就是最热频词了,这里介绍了一种用R生成标签云的方法:Creating Tag Cloud Using R and Flash / JavaScript (SWFObject)(谢益辉) 最后强烈建议对统计软件感兴趣(尤其是对R)的同志们订阅Journal of Statistical Software的RSS,你会经常发现一些稀奇古怪的论文:http://www.jstatsoft.org/rss(啥?你到现在还不知道RSS是神马东西?快来人把这个火星观众撵出去) 若您平时看到觉得写得好的文章,请勿忘推荐给我们,联系邮箱:contact@cos.name。谢谢!
阅读全文 »

Tags: , , , , , , , , , ,
Posted in 推荐文章, 数据分析, 概率论与数理统计, 网站导读 | 6 Comments »

比率估计为什么精确

By 左辰 @ 2009/06/01

比率估计表达式严格成立的条件是辅助变量的抽样均值波动很小,这和比率估计量的构造初衷是矛盾的。实际操作中,比率估计的方差低估难免存在。本文在一定假设下构造了比率估计的方差低估比例,并通过模拟实验证明即使在辅助变量波动较大,样本量较小的情形,方差低估的比例也很小,这是比率估计增加精度的重要因素。
阅读全文 »

Tags: , , , , ,
Posted in 基础统计, 抽样调查, 推荐文章, 概率论与数理统计 | 5 Comments »

Hilbert空间视角下的时间序列模型

By 左辰 @ 2009/03/29

《九章算术》里的“勾股定理”实际上是Hilbert空间中Parseval公式的特殊形式。Hilbert是由内积导出的具有正交概念的一类泛函空间,在时间序列和回归分析中都有广泛的应用。由于距离函数定义的不同,ARMA模型的参数估计与线性回归模型相比既有联系也有区别。时间序列的时域分析和频域分析是在两个不同的Hilbert空间内进行研究的,它们之间通过一个正交增量过程发生联系。
阅读全文 »

Tags: , ,
Posted in 推荐文章, 时间序列, 概率论与数理统计 | 4 Comments »

中国人民大学统计学院《数理统计》精品课程

By 吕晓玲 @ 2009/03/18

这里是中国人民大学统计学院《数理统计》精品课程页面。负责人:吴喜之教授;课程性质:学科基础课。 课程简介 课程内容 数理统计是统计学院最重要的学科基础课之一。它在数学分析、高等代数以及概率论几门课程的基础上,开始系统讲授统计推断的理论,是学生学习统计专业课的基础。主要内容包括以下几个方面:统计量的概念及其抽样分布;点估计的评价准则和方法以及区间估计;假设检验的理论和各种检验方法;贝叶斯估计和统计决策的基本知识;方差分析。 课程特色 数理统计是一门以数学为基础的理论课,学生容易觉得困难和枯燥。但它绝对不是一门纯粹的数学课,为此,我们在不降低数学理论的前提下,着重讲解统计思想,配合实际案例,让学生理解数学符号所代表的含义,启发学生运用统计思维分析问题的能力和兴趣。 课程建设与管理 首先着重师资队伍的建设。数理统计是统计学院最重要的学科基础课之一,为了课程的稳定和教学质量的不断提高,我们在经验丰富的老教授的指导下,以中年副教授为骨干,重点培养年轻讲师,形成了一支老中轻相结合的教学梯队。 本课程除了课堂讲授之外,学生需要大量练习,为此我们专门为本课程配置了两名优秀的硕士研究生作为助教,批改学生作业,并另外开设习题课。研究生助教可以帮助教师及时了解学生的学习情况,做好教师和学生之间的沟通工作。此外,我们通过班级学委定期搜集学生意见,随时调整授课方式,以达到教学效果的最优。 教学团队 负责人:吴喜之教授(http://stat.ruc.edu.cn/cn/faculty/faculty/21803.html) 主讲老师:王星副教授(http://stat.ruc.edu.cn/cn/faculty/faculty/21808.html)               刘文卿讲师(http://stat.ruc.edu.cn/cn/faculty/faculty/21054.html)               吕晓玲讲师(http://stat.ruc.edu.cn/cn/faculty/faculty/50820.html) 课件下载 概率基础 抽样和抽样分布(Sampling and Sampling Distribution) 参数估计 贝叶斯估计(Bayesian Estimation) 假设检验 方差分析 课程视频 教学资源 书籍资源 《数理统计》,赵选民、徐伟、师义民、秦超英著,科学出版社 《Statistics Inference》,(美)George Casella,Roger L.Berger 著,机械工业出版社 《概率论与数理统计教程》,茆诗松、程依明、濮晓龙著,高等教育出版社 网络链接 概率论与数理统计学简介 http://www.jswl.cn/course/A1018/kecheng/chenxiru/shulitongji_chen_1.htm COS统计论坛 http://www.cos.name/bbs/
阅读全文 »

Tags: , , ,
Posted in 概率论与数理统计, 高校课堂 | No Comments »

不拒绝零假设意味着什么

By 郑冰 @ 2009/03/16

由一道试题引发的一点思考 2008年统计学考研真题第四题“食品厂家说:净含量是每袋不低于250g。但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验” (1)如果厂家自己检验,你认为提出什么样的原假设和备则假设?并说明理由。 (2)如果从消费者利益出发,你认为应该提出什么样的原假设和备则假设?并说明理由。 …… 作为统计专业的学生来说,熟悉得不能再熟悉了。但是,通过做上面的题目,我发现自己在理解假设检验的问题上犯了一个十分严重的错误。这个问题主要是由于我们学的教材上面写着:“假设检验要么P-value小于a拒绝原假设,P-value大于a接受原假设……”。后来再看看其他教材,发现绝大多数都是这样写的。其实“P-value大于a接受原假设”这种说法是错误的。 P-value大于a的时候,结论到底是什么呢?最早提出这个问题的是: E·皮尔逊问耶日·奈曼,在检验一组数据是否为正态分布时,如果没能得到一个显著性的 P值,那么怎样才能看这组数据是正态分布的呢? 费歇尔其实已经间接地回答了这个问题。费歇尔把比较大的 P 值(代表没有找到显著性证据)解释为:根据该组数据不能做出充分的判断。依据费歇尔的解释,我们绝对不会得出这样的推理,即没有找到显著性的证据,就意味着待检验的假设为真。这里 引用费歇尔的原话: “相信一个假设已经被证明是真的,仅仅是由于该假设与已知的事实没有发生相互矛盾,这种逻辑上的误解,在统计推断上是缺乏坚实根基的,在其它类型的科学推理中也是如此。当显著性检验被准确使用时,只要显著性检验与数据相矛盾,这个显著性检验就能够拒绝或否定这些假设,但该显著性检验永远不能确认这些假设一定是真的,……” 所以假设检验的目的在于试图找到证据拒绝原假设,而不在于证明什么是正确的。当没有足够证据拒绝原假设时,不采用“接受原假设”的表述,而采用“不拒绝原假设”的表述。“不拒绝”的表述实际上意味着并未给出明确的结论,我们没有说原假设正确,也没有说它不正确。 举个例子来说:比如原假设为H0: m =10,从该总体中抽出一个随机样本,得到`x=9.8,在a=0.05的水平上,样本提供的证据没有推翻这一假设,我们说“接受”原假设,这意味着样本提供的证据已经证明m=10是正确的。如果我们将原假设改为H0: m =10.5,同样,在a=0.05的水平上,样本提供的证据也没有推翻这一假设,我们又说“接受”原假设。但这两个原假设究竟哪一个是“真实的”呢?我们不知道。 总之,假设检验的主要目的是为了拒绝而不是接受。 由一道试题引发的另一道试题 这让我想到2007年统计学考研真题第一题问:“正态分布的假定能不能用数据证明?” 其实也是关于假设检验的问题,具体内容可以参看: 统计学博文导读:统计分布的检验(谢益辉博客)
阅读全文 »

Tags: , , ,
Posted in 基础统计, 概率论与数理统计 | 21 Comments »

P-value:一个注脚

By 胡江堂 @ 2008/12/08

郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的): P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。 The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true. 以下延续白话系列,解释一下,“什么是P值,什么是极端”,算是郑文的一个长长的注脚。
阅读全文 »

Tags: , , , , , , ,
Posted in 基础统计, 概率论与数理统计 | 10 Comments »

不得不提的P值

By 郑冰 @ 2008/12/07

在论坛,经常发现有人发关于P值的帖子,搜索了一下,一共有29个关于P值的帖子。的确,P值是最常用的一个统计学指标,几乎统计软件输出结果都有P值。了解p值的由来、计算和意义很有必要。
阅读全文 »

Tags: , , ,
Posted in 基础统计, 概率论与数理统计 | 13 Comments »

闲扯“自由度”

By 胡荣兴 @ 2008/12/04
闲扯“自由度”

文章从由浅入深地从不同角度简要地介绍了对自由度的不同解释。
阅读全文 »

Tags: ,
Posted in 概率论与数理统计 | 10 Comments »

搜索

推荐阅读

大规模系统内变量关系的研究以及可视化-1因果分析

By 黄帅

引言——变量关系分析的广泛意义
在统计分析中,有这样一类具有普遍意义的问题:在测得了(取样)一个变量系统的数据以后,如何从数据中发现并且验证这些变量之间的关系?了解…阅读全文 »

用GERT方法求解两个抛硬币问题

问题:一枚均匀的硬币,一直抛直至出现HTT(H表示正面,T表示背面),期望要抛多少次?一直抛直至出现HTH(即正反正),期望要抛多少次?假定出现H面的概率为p,出现T面的概率为阅读全文 »

分月存档