COS每周精选:一个商科学生成为数据分析师的故事

本期投稿: 统计之都编辑部 王小宁

编辑:王小宁

一个商科出身的学生,在大学四年级开始逆袭,留英几年习得一手数据分析好本事,让我们来看看他的成长故事

在过去两年间,大数据成为人们关注的热词。尽管一些人对大数据的理解还处在概念上。但是对于前两年打下的数据基础,有人预测2015年将是大数据爆发的一年

Continue reading COS每周精选:一个商科学生成为数据分析师的故事

COS每周精选:算法学习知哪些?

本期投稿:谢益辉 王威廉   冷静   王小宁

编辑:王小宁

算法

K-means是最常用的聚类算法之一:容易理解,实现不难,虽然会有local optimum,但通常结果也不差。但k-means也不是万金油,比如在一些比较复杂的问题和非线性数据分布上,k-means也会失败。普林斯顿博士David Robinson写了一篇不错的分析文章,介绍了几种k-means会失效的情形。

基于遗传算法的小车模拟, 还有遗传算法的行者,看着有一大拨僵尸来袭的感觉、遗传算法的猫

Continue reading COS每周精选:算法学习知哪些?

COS每周精选:寒假来了,小编分享一些学习资料

本期投稿: 谢益辉 王威廉  蔡占锐 王小宁

编辑:王小宁

R可视化

用rgl包绘制彗星的3D图形

Kimmel癌症研究中心发表论文称“患癌症主要是因为你运气不好(而不是因为抽烟喝酒烫头发)”,对此奥克兰大学教授Thomas Lumley(他被人熟知的身份是R核心开发成员)提出了质疑,他将文中的一幅散点图在不同的坐标轴下重画了一下,发现原文宣称的“2/3的癌症可以被DNA复制过程中的随机错误解释”不可靠,若坐标轴不取对数,这个比例会大大下降。

Continue reading COS每周精选:寒假来了,小编分享一些学习资料

第二届中国贝叶斯统计学术论坛(天津,2014)会议纪要

第二届中国贝叶斯统计学术论坛(天津)于2014年12月21日在天津财经大学成功召开。本次会议由天津财经大学中国经济统计研究中心、贝叶斯之道研究室共同主办,统计之都协办。在一天的会议时间里,参会者齐聚一堂,就农村土地流转与大数据监测、小域人口预测的贝叶斯方法、大型多人在线数据分析协作平台和统计分析的第三范式等进行了深入的探讨,并举行了贝叶斯统计分析入门培训,庆祝贝叶斯定理诞生251周年。

thomas_bayes

Continue reading 第二届中国贝叶斯统计学术论坛(天津,2014)会议纪要

埃博拉病毒——大数据时代的疫情防控

2014年时代杂志的年度人物称号由埃博拉患者护理人员获得,在向他们致敬的同时,让我们回顾一下去年这场饱受关注并且持续到今年的全球性传染病事件。

本文由统计之都创作小组 (code99) 撰写,参与本篇文稿的 code99 成员有:熊熹, 邓一硕,刘辰昂,关菁菁

2014年继马航客机失联事件之后,始发于西非几内亚的埃博拉病毒疫情经由传统媒体和数字媒体走入全球公众视野。据世界卫生组织提供的资料[1]显示,埃博拉病毒最早在1976年同时爆发的两起疫情中首次出现的,一起在苏丹,另一起在刚果民主共和国。后者发生在位于埃博拉河附近的一处村庄,该病由此得名。该次埃博拉疫情在刚果民主共和国爆发的是扎伊尔标准亚种,累计318人患病,280人死亡,致死率88%;在苏丹爆发的则是苏丹亚种,累计284人患病,151人死亡,致死率53%;另外还有雷斯顿、科特迪瓦、邦地布优等三个亚种,对动物和人类的危害相对温和。据悉,目前正在肆虐全球的埃博拉病毒,正是致死率最高的扎伊尔标准亚种。

埃博拉病毒疫情时隔几年便爆发一次,不过之前每次疫情规模都比较小,主要集中在一个地区爆发,并且局限在中非。特别地,刚果民众共和国史上曾多次爆发埃博拉疫情。

2014年3月开始爆发的埃博拉病毒疫情的爆发规模引起了国际社会的关注,并且被世界卫生组织列为“国际间关注的公共卫生紧急事件”(历史第三次)。首先,这次疫情涉及到了多个国家和地区。全境范围受影响的国家包括几内亚、利比里亚和塞拉利昂。部分领土受影响的地区包括马里的卡伊,西班牙的马德里,美国的达拉斯、德克萨斯州和纽约市,英国苏格兰地区的格拉斯哥市,尼日利亚的拉各斯哈科特港,以及塞内加尔的达喀尔。其次,这次埃博拉病毒疫情出现的病例和死亡数字超过了所有其它疫情的总和。截止2014年12月31号,累计20206人患病,7905人死亡[2]。并且数字还在不断增加。而所有的埃博拉护理者,则被美国时代周刊选为2014年的年度人物。

回望过去几十年,人类无疑在信息、科技、生物、医疗等领域取得了今非昔比的成果。反观2014年埃博拉病毒疫情的爆发、传播、媒体报导、控制,我们不禁开始思考在这个大数据时代,数据、统计、理性思考、批判思维能为人类对疫情防控带来什么好处?这篇文章试图从三个角度去阐述大数据如何与疫情防控紧密相连。本文第一部分讨论了如何通过交通数据、移动通信数据与社交媒体数据等非传统公共卫生数据来测算乃至预测疫情风险;第二部分重点关注死亡率的不同估算方法带来的对于疫情风险的不同认知;第三部分聚焦在埃博拉病毒疫情的治疗和防控支出数据。 Continue reading 埃博拉病毒——大数据时代的疫情防控