蒲丰投针问题是一个非常经典的问题,两百多年来,一直受到学者们的广泛关注和研究,并衍生出了很多非常有意思的变种问题。本文利用坐标系变换、几何概率方法巧妙地求出了:往矩形网格上随机投椭圆,该椭圆恰好包含在某个矩形中间的概率,并将结果拓展到了平行四边形网格的情形下。
具体内容,参见此pdf文档。
注:
本文作者为中南大学数学院应数专业蔡永强同学,感谢他的授权,使得本文可以在此分享。
附件pdf文档是由手写稿扫描转换而成,也欢迎广大统计学子向COS主站投稿。
阅读全文 »
统计之都
统计之都网站相关事宜
蒲丰投针问题的推广
第二届中国R语言会议纪要
2009年12月5~6日以及2009年12月12~13日,第二届中国R语言会议分别在北京和上海两个分会场成功召开。北京会场由中国人民大学应用统计科学研究中心和中国人民大学统计学院主办;上海会场由华东师范大学资源与环境科学学院、金融与统计学院主办,Mango Solutions咨询公司提供赞助。对R语言在中国的推广做出了杰出贡献的吴喜之教授和谢益辉博士远在美国为本次会议发来祝贺;中国R语言的领军人物、华东师范大学的汤银才老师也应邀参加会议并做了专题报告。两个会场的会议就R语言在众多领域中的应用展开了广泛的交流和讨论,为R语言在中国的进一步应用和推广开辟了更宽阔的道路。
会议主题
本次会议的主题是“无处不在的R”,也即印在参会胸牌上的“use R eveRywheRe”,意指R的应用领域之广;同时,“use R eveRywheRe”又可看成是“useR eveRywheRe”,意指R的使用者遍布四面八方。
从会议的结果来看,演讲的内容和参会者所在的单位都很好地契合了这一主题。
会议概况
参会单位
北京和上海两地会议共吸引了90余家单位共300余人参加,参会单位包括:
高校:北京交通大学、北京科技大学、北京林业大学、北京师范大学、东华大学、东南大学、复旦大学、华东师范大学、华中科技大学、吉林大学、剑桥大学、江苏大学、南京财经大学、南京人口管理干部学院、南京人口学院、南京信息工程大学、清华大学、山东大学、上海财经大学、上海大学、上海电机学院、上海海洋大学、首都经济贸易大学、苏州大学系统生物学中心、西北师范大学、西藏民族学院财经学院、新加坡国立大学、英国杜伦大学、浙江大学、中国科学院研究生院、中国农业大学、中国人民大学、中国石油大学、中南大学、中央财经大学、中央民族大学等
科研机构:东海所、上海交通大学瑞金医院、南京地质古生物研究所、上海生命科学研究所、上海植生所、上海中医药大学附属龙华医院、协和医院基础医学所、宣武医院、有色金属技术经济研究院、中国地质环境监测院、中科院动物研究所、中科院生态中心、中科院西双版纳植物园、中科院系统科学研究所、中国科学院计算机网络信息中心、中国科学院马普计算生物学研究所、中国科学院上海生命科学研究院计算生物学研究所、中国科学院植物研究所、中国林业科学研究院、中国农业科学院、中国食品发酵工业研究院、中国水稻研究所等
公司企业:Alipay、CUPL、IMShealth、Iresearch、Mango Solutions、SAS Institute、SIPPE、SPSS China、北京瑞丽杂志社、北京中彩在线科技有限责任公司、贝塔斯曼集团、方正科技集团股份有限公司、好耶、科瑞纳、摩托罗拉、欧维特服务、赛诺菲巴斯德生物统计中国部、上海汇众汽车制造有限公司、上海源略数据、思创软件、拓普公司、网秦、新华信国际信息咨询(北京)、中科软科技股份有限公司、中芯国际等
政府部门及事业单位:北京市质量协会、国家统计局、国家知识产权局专利局、宁波市疾控等
参会人员
用R对填写了年龄信息的参会人员数据进行汇总,得到年龄分布的结果如下:
Min. 1st Qu. Median Mean 3rd Qu. Max.
18.00 22.00 24.00 24.93 27.00 45.00
18 | 00
20 | 00000000000000000000000000000
22...
阅读全文 »
大规模系统内变量关系的研究以及可视化-1因果分析
引言——变量关系分析的广泛意义
在统计分析中,有这样一类具有普遍意义的问题:在测得了(取样)一个变量系统的数据以后,如何从数据中发现并且验证这些变量之间的关系?了解变量之间的关系,无论是对于知识发掘(knowledge discovery),还是拟合精度的提高,都是很有意义的.比如任何一类回归分析,便是要分析预测变量和响应变量之间的关系.如果我们能用一些方法做回归前的预分析(pre-analysis before regression),比如,使用方差分析去分析各个预测因素之间的关系,是非常有必要的.为什么呢?一个很简单的原因是出于对复线性的考虑.众所周知,复线性是回归分析的大敌.如果大家还记得回归分析系数的协方差矩阵的话,想必也能记得如果预测因素之间的相关系数太大会导致回归方程系数非常不稳定(请参阅 method of multivariate data analysis by rencher).又如结构方程模型,是要分析测量变量(measurement)和结构变量(construct)之间的关系.还有最近十分热门的图模型,便是赤裸裸的声称图模型是所有统计模型的一个大综合.
阅读全文 »
用GERT方法求解两个抛硬币问题
先较为详细地介绍GERT方法,然后使用GERT方法求解几个抛硬币问题
阅读全文 »
我的求学之路:经济学、软件工程、SAS
这个青年的经历,只代表他个人,没有任何群体的意义。
我想写下一段自白,这自白既是我个人的,也具有普遍意义,因为一个人经历过的事情所有的人都可以经历。
/*跟武汉博文视点合作,召集些身边的朋友,2009应届生,计算机背景,在毕业之前,讲讲自己求学、实习、找工作等的经历与感悟,文章将由电子工业出版社结集出版,在今天秋季学期开学之前出来。我是主编,也是作者之一,刚好经历跟大伙有重叠:经济学、软件工程、SAS、统计学、数据挖掘,文章贴出来,大伙多拍砖头。文中我提到COS,COS让我长见识,又结识不少好朋友。*/
想启蒙至今,我的学习重心从文史哲转到经济学,最后以软件工程收场;在行业方面,在一家软件公司实习了一年多,找工作以药厂收场——用一个朋友的话讲,“背景是复杂得一塌糊涂”。虽然我常以“学一行,爱一行;做一行,爱一行”自勉,有时也不免回首,想想以前经历过的所有分岔口,玩味些那些没有走过的路,无论当时我多么坚决或者犹豫,一条路被选中,然后一路曲折至今。很多事情,很多选择,可能只有以后才能适合评说,现在我选择把它们记下来,在这么一个时点,我就要毕业,我有一个安身立命的去处,我有规划,但我不知道以后生活会给我什么样的分岔口,就跟我以前遭遇的一样。
——————我的人生轨迹—————
项羽,“学书不成,去;学剑,又不成”。
—-《史记·项羽本纪
1.高中:文科生,喜文史
|
|高考
...
阅读全文 »
用R软件绘制中国分省市地图
鉴于最近有不少人在讨论用R软件绘制地图的问题,我也就跟着凑了凑热闹,对相应的方法学习了一番。下面的这篇文章是一个初步的介绍,还有很多内容仍在学习和探索中,如果大家有什么意见或建议,我将根据自己学习的情况对文章进行进一步的补充。
阅读全文 »
中国人民大学统计学院研究生会学术期刊《统计功课》第五期(2009)摘要
期刊简介:本刊是中国人民大学统计学院研究生会的学术类期刊,一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台,同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写,其中也包括一些专业课的作业。现应允发表其摘要于统计之都,以供广大统计人士学习、指点与探讨。
一、第三届首都高校统计学研究生论坛论文选登
非对称分布的最优置信区间
清华大学数学科学系 苟江涛
摘要:对于非对称分布的双侧假设检验问题,传统方法简单的把显著性水平平均分配在两侧。本文给出了另一种处理方式:通过最小化置信区间长度来确定置信区间。本文尝试分析利用何种指标可以决定这两种计算置信区间的方法间的差异大小,并以 分布和 分布为例进行了计算验证。
关键词:双侧检验,非对称分布,偏度, 分布, 分布
Rare Event Detection via Improved SMOTE Weighted Random Forest
School of Statistics, Renmin University of China CHENG Xiaoyue
Abstract:Rare event detection is a difficult problem in machine learning. To better the predict effect, this paper provides a method incorporating an improved SMOTE over-sampling technique and weighted random forest. The...
阅读全文 »
中国人民大学统计学院研究生会学术期刊《统计功课》第四期(2008)摘要
期刊简介:本刊是中国人民大学统计学院研究生会的学术类期刊,一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台,同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写,其中也包括一些专业课的作业。现应允发表其摘要于统计之都,以供广大统计人士学习、指点与探讨。
一、第二届首都高校统计学研究生论坛论文选登
多重假设检验方法及其在经济计量中的应用
天津财经大学统计学院 中国人民大学统计学院
刘乐平 张龙 蔡正高
摘要:复杂数据和复杂模型的统计推断问题现已成为国内外统计学研究的重要问题。本文以高维复杂数据为研究对象,以多重假设检验的错误控制为主线,对多重假设检验问题的错误控制理论、方法和过程及最新进展进行综述,并对多重假设检验方法在经济计量研究中的应用进行展望。
关键词:多重假设检验,错误发现率,经济计量学,q-值
捕获记忆呈指数消退的捕获反应模型
北京大学概率论与数理统计系 丁丹丹
摘要:本文提出了一个直接估计模型,主要想法是假设动物对陷阱的记忆只与距离最近一次被捕获的时间间隔有关,不同时间间隔代表了动物对陷阱记忆的不同状态,我们假定同一状态的动物具有相同的再捕获概率,并用似然函数求解参数的估计。当假定动物具有永久记忆时,得到传统Mb模型;当假定动物同时具有长期和短期记忆时,得到MM2(B)模型;当假定动物只具有短期记忆时,得到MM1(B)模型。除此之外,该模型还可以描述动物具有更复杂的捕获记忆的情况,本文对其两种扩展模型——中长期记忆模型和中短期记忆模型作了详细讨论。本文同时还提出了动物的捕获记忆呈指数消退的捕获反应模型,用来详细刻画动物的捕获反应。该模型假设动物对于陷阱的记忆随时间的增长呈指数消退,基于这种思想建立参数模型,用最大似然函数方法求解。最后本文对各种模型做随机模拟,并比较其结果,同时根据AIC准则做模型选择,讨论如何挑选最适合的模型。
关键词:中长期记忆模型,中短期记忆模型,指数消退的捕获反应模型,随机模拟
统计数据质量的综合评价
首都经济贸易大学统计学院统计学专业 胡迪
摘要:本文在建立数据质量评价指标体系的基础上,通过层次分析法和模糊综合评判对我国统计数据质量进行了系统分析,以提高我国统计数据质量管理水平及其评估体系的科学性。
关键词:数据质量,层次分析法,模糊综合评价
二、数据挖掘小组研究报告选登
基于贝叶斯分类的保险赔付问题研究
中国人民大学统计学院
王旭 刘冬 石磊 朱建旭
摘要:在理财意识和自我保护意识不断提高的今天,保险业已经收到了越来越多人的关注,成为21世纪的朝阳产业。对保险行业而言,如何通过特定的人群属性来辨别高赔付风险的人群,其意义不言而喻。从而,本文的目的是根据相应的人群属性来对保险赔付情况进行研究。由于贝叶斯分类法具有坚实的数学理论基础,是公认的较为有效和常用的一种分类方法,所以,本文在充分考虑了数据自身的特点之后,将贝叶斯分类器作为主要的分析工具。结合保险行业1981年至2002年的实际赔付数据,本文首先尝试了朴素贝叶斯方法,分析了多个人群属性特征变量对赔付概率的影响,进而利用Cooper和Herskovits在1992年提出的K2算法训练贝叶斯网络模型,并将模型预测结果与传统分类器(如cart、logistic回归等)及朴素贝叶斯进行比较。鉴于K2算法自身存在的一些缺陷,本文进一步提出了基于关联规则的贝叶斯网络模型,并通过学习得到了预测能力良好且较为鲁棒的保险赔付测算模型。
关键词:保险业,数据挖掘,赔付,贝叶斯网络
健康食品消费人群细分与广告营销模式探讨
中国人民大学统计学院 杨晨 钱政超 苏晶晶 程冬旭
摘要:近年来,随着经济发展和人们生活水平的提高,越来越多的人开始关注健康、投资健康,健康消费已经成为一种时尚。在这种大环境下,不少厂商开始试图拓展健康食品的市场。本研究报告时受某健康食品厂委托,针对现有健康食品消费者进行特征分析,考察其潜在客户,预测市场份额并试图提出合适且有针对性的营销策略。
关键词:健康食品,人群细分,营销模式
数据挖掘技术在信用卡违约风险中的应用
中国人民大学统计学院 冯靓
摘要:随着世界经济的不断增长和信息技术的迅猛发展,全球的信用卡使用量持续上升,信用卡已经成为支付领域的主要媒介。信用卡的消费信贷功能具有解决持卡人临时资金短缺、提高即时购买力、满足大众消费信贷等优势,同时还有利于调整和改善银行资产结构。但与此同时,高风险用户也随着信用卡业务量的不断扩大不断积累,给银行带来极大的经济损失。本文力图运用数据挖掘技术中的决策树、Logistic Regression方法从现有数据库中提取出潜在的有效分类信息,为甄别高风险用户提供决策依据。
关键词:信用卡,数据挖掘,决策树模型,Logistic Regression模型
三、我们的功课
稀有事件变点问题的Bayes分析
中国人民大学统计学院 钟颖
摘要:本文针对稀有事件的变点问题,根据Bayes发建立了判断变点是否存在、计算变点位置的合理模型,并利用基于Gibbs抽样的MCMC模拟抽样,估计出变点和分布参数之值。然后引用美国煤矿灾难和我国关中地区干旱灾害的实际数据,检验了文中提出方法的可行性。
关键词:稀有事件,变点,Bayes法,Gibbs抽样
分层抽样下的西蒙斯随机化回答模型
中国人民大学统计学院 谢佳斌
摘要:本文通过结合分层抽样技术和西蒙斯模型,提出了分层抽样下奈曼分配时的西蒙斯随机化回答模型。该模型在应用于总体为分层总体的时候比简单随机抽样下的西蒙斯模型有着更高的精度,在实际的调查操作中也有着更强的可行性。此外,本文还探讨了受访者在不完全真实回答情况下的情形,并对模型进行了改进。
关键词:分层抽样,西蒙斯模型,随机化回答技术
煤炭价格波动对新疆工业的影响——基于CGE模型的分析
中国人民大学统计学院 邢瑞军
摘要:本文通过建立可计算一般均衡(CGE)模型,模拟了宏观经济的运行情况。并在假定其它因素不变的情况下,分析煤炭价格的波动对新疆工业的影响,对政府部门的宏观经济政策提供了决策上的支持。
关键词:可计算一般均衡,宏观经济模拟,煤炭价格
阅读全文 »
中国人民大学统计学院研究生会学术期刊《统计功课》第三期(2007)摘要
期刊简介:本刊是中国人民大学统计学院研究生会的学术类期刊,一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台,同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写,其中也包括一些专业课的作业。现应允发表其摘要于统计之都,以供广大统计人士学习、指点与探讨。
一、首届首都高校统计学研究生论坛论文选登
北京居民幸福指数及基于结构方程的幸福指数因素分析
首都经济贸易大学 杨作毅 玛丽平
摘要:幸福是一个充满困惑,充满神秘的千古难题,每个人都知道其含义,但无人能够精确定义。虽然对幸福定义有着不同的诠释,对幸福原因各不相同,但人们都把对幸福的追求视为最珍贵的生活目标之一,为反映北京居民幸福水平,本文在对北京1700多常住居民调查的基础上,编制了幸福指数,并引入隐变量结构方程模型,利用ML方法找出影响北京居民幸福感的主要因素。
关键词:居民幸福指数,结构方程,最大似然估计法(ML),因素分析
农村人身保险需求与农民收入的实证研究
中央财经大学统计学院博士生 张桂香
摘要:国内外学者从理论和实证角度做了诸多人身保险需求与收入关系的研究。限于数据的可得性,目前关于我国农村人身保险需求与农民收入的实证研究还不多见。本文采用已有的列联表数据,利用对应分析和最优尺度分析方法,分析了人身保险需求与收入以及保险意识等因素的关联程度,根据分析结论提出广大农村人身保险的对策。
关键词:人身保险需求,收入,对应分析,最优尺度分析
探寻分层抽样样本容量最优分配问题
中央财经大学经济学硕士 米荷芳
摘要:分层抽样是统计调查中较为成熟的技术,分层抽样之所以得到广泛应用,是因为可依据我国各级行政隶属关系分层,各层可分别进行抽样。其次是每层可独立进行抽样与判断,这就可满足各地区、各部门的需要。第三十通过适当的分层,可提高样本对总体的代表性,降低抽样误差与样本容量,减少调查费用。本文着重讨论在抽样的总费用一定的情况下,样本容量在各层的最优配置问题。
关键词:分层抽样,抽样误差,样本容量
二、挑战杯论文选登
Analysis of Chinese Motor Insurance Comparative Study of Third Party Liability Insurance Systems
First year Master student School of Statistics Renmin University of China Yao Rui, Tao Qian
Abstract: This paper provides an introduction to Chinese third party liability insurance. The paper appraises the rating criteria and rating factors applied by various...
阅读全文 »
中国人民大学统计学院研究生会学术期刊《统计功课》第二期(2006)摘要
期刊简介:本刊是中国人民大学统计学院研究生会的学术类期刊,一年出版一期。其目的是为统计学院各专业的硕士博士生提供一个学术交流和展示的平台,同时也为本科生提供一个学习的机会。本刊收录的文章全部是由统计学院各级研究生自主撰写,其中也包括一些专业课的作业。现应允发表其摘要于统计之都,以供广大统计人士学习、指点与探讨。
一、统计论坛
首届“首都高校统计学研究生论坛”——统计理论及其在经济社会中的应用
该论坛是由中国人民大学统计学院研究生会主办的一项具有导向性、示范性和群众性的研究生学术研讨活动,以促进首都各院校之间的学术交流,为统计学及其边缘学科的繁荣发展积蓄力量。该论坛向首都高校统计学研究生征集优秀研究成果,聘请统计学专家进行评定,合格者将作为各高校代表受邀参加该论坛,论坛优秀作品会结集出版。首届论坛举办时间为2006年12月20日,地点为人大明德主楼10层统计学院会议室,受邀单位为:北京大学光华管理学院、北京师范大学数学科学学院、清华大学经济管理院、首都经贸大学统计学院、中科院应用数学所、中央财经大学统计学院。
二、挑战杯
第二届统计学院学生课外活动学术科技作品竞赛章程
分为总则、组织机构及其职责、参赛资格和作品申报、时间安排、奖励办法、附则。
中国人民大学第八届学生课外活动学术科技作品竞赛参考题目
分为哲学类、经济类、法律类、社会学类、教育类、管理类。
三、我们的功课
有序样品聚类算法(S-Plus)
硕士一年级 谢益辉
摘要:有序样品聚类是对按照一定顺序排列的样品进行聚类,与一般聚类方法的区别在于被聚类的各样品的“地位”是不同的。文章介绍了S-Plus的有序样品聚类算法。
农村家庭财产损失评估
硕士二年级 王建 张娜
摘要:本标准规定了受灾地区农村家庭财产损失评估的抽样方法,财产损失核算指标,财产损失的计算原则和方法,目的是为了调查清受灾地区农村家庭财产损失情况,做好灾区的防灾救灾和灾区重建工作。本标准参考了《地震现场工作》第四部分“灾害直接损失评估”中的有关规范和标准,并借鉴了《全国1%人口抽样调查》抽样规范。
六西格玛管理过程控制技术
刘文卿 孟鹏辉
中国人民大学六西格玛质量管理研究中心
摘要:质量管理的三部曲是质量策划、质量控制、质量改进,六西格玛管理DMAIC流程的最后一个阶段就是控制。六西格玛管理强调过程活动的量化,这使得以量化分析为基础的过程控制技术有了广阔的应用空间。同时,接近零缺陷的六西格玛过程也对过程控制技术提出了新的要求,促使控制方法本身得到新的发展。本年度六西格玛原理专栏将系统介绍六西格玛管理中的过程过程控制技术,包括过程控制计划、失败模式与影响分析(FMEA)、过程控制简单图标、过程能力分析、统计过程控制(SPC)、常用过程控制图等。
给付确定型养老金计划的动态最优控制
徐静 张波
摘要:本文考虑连续时间情形下给付确定型养老金模型的最优控制问题。在养老金给付期望为指数增长,目标函数为最小化贡献率风险和偿付能力风险线性组合的假设下,得到了无风险投资时的最优贡献率和最小风险。
关键字:确定给付型养老计划,贡献率风险,最优控制,偿还能力风险
四、近期学院主要学术活动
教师活动部分
§ 外事
2006.2 易丹辉教授圆满完成在美国加州伯克利分校5个多月考察与调研
2006.2 张波教授圆满完成在美国明尼苏达州6个月访问交流
2006.3-5 吴喜之教授应中国统计教育学会邀请赴西藏大学经管学院支教讲学
2006.7.31-8.2 王晓军教授出席日本东京举行的第十届亚太风险管理与保险年会,作了题为《中国养老金制度地区差距及其经济影响》的报告,被推选为亚太风险管理与 保险协会常务理事
2006.9.5-15 高敏雪教授作为主要技术专家参加商务部服务贸易考察团赴欧洲考察交流
2006.9.25 应王晓军教授邀请,国际精算学会主席Jean Louise Masse先生一行对中国人民大学进行了访问
2006.10.13-14 应韩国延世大学经济与商学学院应用统计系Byung Soo Kim教授邀请,我院教师吴喜之、黄向阳、蒋妍、肖宇谷、金阳参加了在延世大学举行的为期两天的“延世大学-中国人民大学统计联合研讨会”
§ 挂职
2006.3 受组织上委派到国家统计局国民经济核算司挂职任副司长的高敏雪教授圆满完成挂职任务
2006.3 受组织上委派到国家统计局人口和社会科技统计司挂职任副司长的彭非教授圆满完成挂职任务
§ 会议与讲座
2006.4 “计量模型与中国-澳大丽妍自由贸易区发展国际研讨会”在我院召开
2006.5 “统计国际顶级专家系列讲座”在统计学院讲堂举行
2006.9.20-22 台湾著名统计学家赵民德教授在统计学院讲堂进行了“学术研究与SCI和SSCI论文发表系列讲座”
2006.11.3 国际劳工组织社会保障部高级经济学家Wolfgang SCHOLZ先生为统计学院师生作了题为“社会预算模型(Social Bugdet Models)”的讲座
2006.11.8 澳大利亚保险集团研发部主任、中国保监会非寿险部首席顾问朱双和先生为统计学院师生作了题为“石棉课题研究(Some Asbestos Related Reseach Topics)”的讲座
2006.11.29 清华大学教授梁宗霞在明德主楼开讲“非适应局部时理论”
学生活动部分
06.3.10 首届统计学院学生课外学术科技作品竞赛评审工作顺利完成
06.4.18 03级本科团支部举办“经验交流会”
06.4.24 开放明德楼1031是作为统计学院学生科研中心
06.6 统计学院研究生会举办工作经验交流会
06.6 统计学院研究生会第一期学术性刊物《统计功课》发行
阅读全文 »
