网站导读

统计之都网站导读系列

统计学博文导读:内贾德大选作弊?流星撞飞机的概率?买双色球?

By 谢益辉 @ 2009/06/17
统计学博文导读:内贾德大选作弊?流星撞飞机的概率?买双色球?

“统计之都”站的“网站导读”栏目的设立是为了以简短的形式向大家介绍一些有意思而且有水平的统计学文章,不求理论之复杂,但求统计学之生活化,让大家看到一些统计学的“另类”面目。若这个目的达不到,那么我希望大家读完这些导读文章之后能说一句“哇,原来统计不是会计啊/不是做报表的啊/不是数学啊”也足够了。另外,现在网上很多文章都是抄来抄去(更恶劣的是不加出处的抄袭),我们觉得这种做法极其无聊,是对原始作者的极大不尊重,也容易造成以讹传讹误导不明真相的围观群众,本站这个栏目的建立,也是基于这一点考虑之上提供一种“引用他人文章”的示例,很傻很天真地希望互联网的抄袭现象能够有所收敛。言归正传: 一、用数字作弊要小心:关于内贾德的选票 日前伊朗的大选可谓轰轰隆隆,颇引人注目,内贾德在胜出之后却引来一片质疑,今日又有传闻说穆萨维才是真正的胜出者。总之疑云重重,那么让政治家玩政治家的游戏吧,我们从另一个视角来关注一下这次选举。密歇根大学的教授Walter R. Mebane, Jr.这几天一直在分析选票数据,今天的文章参见:Note on the presidential election in Iran, June 2009(注意论文和数据以及R代码都在更新中,如果不能访问,请到他的主页上找) 文章主要基于两点理论去检验选票数据: 本福特定律(Benford’s Law):生活中的数据里,1~9这9个数字在首位的出现并非均匀分布,例如1出现在一个数字的首位的概率约为1/3,而不是想象中的1/9,越往后的数字出现概率越低。不过,作者得到的选票数据是按地区汇总的,而对于汇总数据,我们往往难以发现它作弊的嫌疑,因为汇总数据倾向于符合本福特定律,从这一点上,作者没有找到足够的证据证明选票数据作弊; 检验离群点:手头的数据只有选票数,没有其它变量,这种情况下统计建模的局限性很大,似乎各种工具都施展不开,不过作者还是在“艰苦”的条件下建立了过度散布的二项回归模型(overdispersed binomial regression),因变量是二分变量(内贾德 vs 穆萨维),自变量是选票数,看看哪些地区的选票数有离群点出现,熟悉伊朗政局情况的人从这些离群点可能发现违背常理的现象(选票过高?过低?) 看来统计学家总是有办法拷问数据,不知咱国内是否有这样的统计学家呢? 想起本科上课的时候我们有一位老师提到陈毅元帅的一句话:“莫伸手,伸手必被捉。”在数据上,还是莫造假吧,只要有人较真,一定有办法看出来的。 二、飞机被流星撞到的概率多大:法航失事之后的计算 前几天,本站作者、COS论坛元老刘思喆用R计算了一下飞机被流星击中而失事的概率,发现一架飞机在11小时飞行过程中被流星击中的概率是双色球中一等奖概率的1/100,看样子可以舒口气,不过坏消息是,20年中被击中的概率就陡然上升到5%了。看来还是双腿走路可靠…… 然而我想知道的是: 过去20年有飞机被流星击中过么? Poisson分布合适么?或者,流星砸向地球的分布是什么?有没有天文学相关的实证呢? 三、让R帮你查看是否中了500万大奖:“懒惰”的彩民 这一篇依旧是把统计和R融入生活的刘思喆:500万?去买双色球!(被评论为标题党)彩民们每天眼巴巴对着彩票网以及自己的彩票的若干位数字看,实在是很辛苦,因此思喆老大体谅大家,挑灯夜战写了一段R代码,按照该文的描述,彩民们每天只要打开R,就知道自己有没有中奖。我提议,要是哪位读者因此中奖了一定要给思喆老大提成以及给统计之都捐赠! 我后来的想法是,干脆写个批处理文件(R CMD BATCH),开机自动运行好了,连R都不用打开。懒惰是创新之源,这话没错。 R还有很多“奇怪”的应用,在作者的主页贝吉塔行星中能找到更多。 四、其它文章 画函数曲线本来是一件简单的事情,为什么我们总是忘记初中的“描点法”呢:画曲线的通用办法:描点法画图(谢益辉) 标签云将词语文本的大小与其某种属性(例如重要性、出现频率)关联起来,因此标签云图可以直观展示一些词语的属性。例如文本越大表示出现频率越高,那么一眼看去,最大的词就是最热频词了,这里介绍了一种用R生成标签云的方法:Creating Tag Cloud Using R and Flash / JavaScript (SWFObject)(谢益辉) 最后强烈建议对统计软件感兴趣(尤其是对R)的同志们订阅Journal of Statistical Software的RSS,你会经常发现一些稀奇古怪的论文:http://www.jstatsoft.org/rss(啥?你到现在还不知道RSS是神马东西?快来人把这个火星观众撵出去) 若您平时看到觉得写得好的文章,请勿忘推荐给我们,联系邮箱:contact@cos.name。谢谢!
阅读全文 »

Tags: , , , , , , , , , ,
Posted in 推荐文章, 数据分析, 概率论与数理统计, 网站导读 | 6 Comments »

统计之都《本周导读》第十一辑

By 郑冰 @ 2009/03/29

一、主站 这周本站共发布了2篇日志: 中国人民大学统计学院研究生课程“统计模型” 高校课堂:感谢程晓月的提供; Hilbert空间视角下的时间序列模型左辰作品:用两种Hilbert空间为时序模型提供了时域和频域两种不同的视角; 二、论坛 关于邀请大家成为统计之都高校联系人 沈阳工程学院政法系陈阳老师 捐赠 中国人民大学王剑 三、维基 COS维基建设需要您的建议和意见,请以回复或邮(wikicos.name)件形式反馈,谢谢。
阅读全文 »

Tags: , , , ,
Posted in 统计之都, 网站导读 | No Comments »

统计之都《本周导读》第十辑

By 郑冰 @ 2009/03/22

一、主站 这周本站共发布了5篇日志: 不拒绝零假设意味着什么 郑冰作品:P-value大于a为什么不能说接受原假设; 中国人民大学统计学院《主文献研读》博士生课程(2009年春) 高校课堂:2009年春季中国人民大学统计学院《主文献研读》博士生课程网页; 不同版本的散点图矩阵 魏太云作品:介绍了四个绘制散点图矩阵的函数及详细的R代码; 在Batch Mode下完成无人值守的R项目测试 齐韬作品:介绍了R测试,调用Rterm; COS竞赛:英文站点会员类型的识别COS竞赛:“COS竞赛”系列活动之一,分析统计之都英文网站的会员数据,从中找出识别正规会员和机器人(垃圾、广告、自动注册)会员的规律; 二、论坛 关于邀请大家成为统计之都高校联系人 捐赠 目前为止捐赠的有: 安徽东至县某匿名用户 中南大学陈钢博士(要求捐赠用于开办R语言相关活动) 中科院动物所杨鹏程 首都经贸大学闻博 COS论坛会员lyxmoo COS论坛会员birdnick 三、维基 COS维基建设需要您的建议和意见,请以回复或邮(wikicos.name)件形式反馈,谢谢。
阅读全文 »

Tags: , , ,
Posted in 网站导读 | 1 Comment »

统计之都《本周导读》第九辑

By 郑冰 @ 2009/03/15

一、主站 这三周本站共发布了3篇日志: 调和曲线图和轮廓图的比较 魏太云作品:用调和曲线图和轮廓图展示多元数据,并附有详细R代码; 相关矩阵的可视化及其新方法探究 魏太云作品:用圆圈的大小表示相关系数的大小,黑白色填充分别表示正负相关系数,整个相关系数阵一目了然; 统计学博文导读:火箭队比赛与分类树、神经网络与降维 统计之都网站文章的新形式:以导读介绍有趣、实用的统计相关博文;本文主要介绍了刘思喆的分类树研究火箭队比赛数据一文以及左辰关于神经网络与降维的思考; 到现在为止,COS主站已经有15位作者,新学期加入的成员有: 1、G. Mi 论坛ID:爱不需要表达 自我介绍:An R enthusiast and can always find joy in solving problems using statistics knowledge. Hopefully I will begin my graduate study in statistics this fall in the US. 2、左辰 自我介绍:中国人民大学统计学院06本,统计学、应用数学专业.学术兴趣:实分析、数理统计、时间序列分析;BLOG: http://blog.sina.com.cn/annihiland 二、论坛 关于邀请大家成为统计之都高校联系人 本学期又多了3个成为统计之都的高校联系人: 山东财政学院 李健 湖北师范学院索明 杭州电子科技大学宗淳 统计之都高校计划需要您的帮助,请协助我们开展高校统计课程建设计划,我们希望统计之都能够成为高校统计教师在教学中的得力工具。 三、维基 COS维基建设需要您的建议和意见,请以回复或邮(wikicos.name)件形式反馈,谢谢。
阅读全文 »

Tags: , , , , , , ,
Posted in 网站导读 | No Comments »

统计学博文导读:火箭队比赛与分类树、神经网络与降维

By 谢益辉 @ 2009/03/15

即日起,统计之都网站成立“统计学博文导读”栏目,归属于“网站导读”栏目。我们号召广大读者和作者将喜爱的统计学博客文章推荐给我们,以方便更多读者在这个信息爆炸的时代能够快速阅读到优秀的文章;本文是统计之都“统计学博文导读”第一篇,权当示范本栏目的作用。这次我们重点推荐两篇博文,分别来自于刘思喆和左辰,向大家展示统计学理论的生活和思维魅力。
阅读全文 »

Tags: , , , ,
Posted in 数据挖掘与机器学习, 统计计算, 统计软件, 网站导读 | 4 Comments »

统计之都《本周导读》第八辑

By 郑冰 @ 2009/02/22

一、主站 从寒假到现在共发布了5篇日志。
阅读全文 »

Tags: , , , , , ,
Posted in 网站导读 | No Comments »

统计之都《本周导读》第七辑

By 郑冰 @ 2009/01/11

一、主站 本周一共发布了2篇日志。
阅读全文 »

Tags: , , , , , ,
Posted in 网站导读 | No Comments »

统计之都《本周导读》第六辑

By 郑冰 @ 2009/01/04

一、主站 本周一共发布了1篇日志。
阅读全文 »

Tags: , , , , , ,
Posted in 网站导读 | No Comments »

统计之都《本周导读》第五辑

By 郑冰 @ 2008/12/28

一、主站 大家忙着准备期末复习,本周一共发布了1篇日志。 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵 期待胡江堂下期对传说中的ROC曲线的分解。 二、维基 本周维基上面内容变化不大。 三、论坛 关于邀请大家成为统计之都高校联系人 目前会员总数:72514,主题数:9535 ,帖子数:66661
阅读全文 »

Tags: , , , , , ,
Posted in 网站导读 | No Comments »

统计之都《本周导读》第四辑

By 郑冰 @ 2008/12/21

一、主站 本周一共发布了2篇日志;《第一届中国R语言会议纪要》和《WinBUGS在统计分析中的应用(第二部分)》。 第一届中国R语言会议纪要 介绍了第一届中国R语言会议的相关情况,可以下载会议相关资料。 WinBUGS在统计分析中的应用(第二部分) 齐韬为我们讲述WinBUGS数据分析案例并结合SAS做比较分析。 二、维基 本周维基上面内容变化不大。 三、论坛 关于邀请大家成为统计之都高校联系人目前已经有六人发来他们的简历,分别是:东北财经大学的尚红超、哈尔滨师范大学的薛崇政、南京邮电大学的张亮亮、南京农业大学的万洪深、浙江大学的沈炎峰和厦门大学的吴见彬、陈希。 目前会员总数:71818,主题数:9463 ,帖子数:66253
阅读全文 »

Tags: , , , , , ,
Posted in 网站导读 | No Comments »

搜索

推荐阅读

大规模系统内变量关系的研究以及可视化-1因果分析

By 黄帅

引言——变量关系分析的广泛意义
在统计分析中,有这样一类具有普遍意义的问题:在测得了(取样)一个变量系统的数据以后,如何从数据中发现并且验证这些变量之间的关系?了解…阅读全文 »

用GERT方法求解两个抛硬币问题

问题:一枚均匀的硬币,一直抛直至出现HTT(H表示正面,T表示背面),期望要抛多少次?一直抛直至出现HTH(即正反正),期望要抛多少次?假定出现H面的概率为p,出现T面的概率为阅读全文 »

分月存档