郁彬:让我们拥抱数据科学(Let us own data science)

郁彬教授8月22日在北京大学做了名为让我们拥抱数据科学(Let us own data science)的讲座。在演讲中郁彬从一个统计学家的角度出发,讲述了数据科学的兴起历史和目前状况,并且对统计学科、从事统计相关工作的人士如何跟上时代步伐拥抱数据科学给出了非常多的建议。经过郁彬的允许和支持,本文分享了她此次演讲的幻灯片和视频!

演讲人介绍:郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

讲座摘要:This talk is a repeat of my IMS Presidential Address in Sydney at the joint conference of Statistical Society of Australia and IMS in July, 2014. It is about the history of the statistics discipline, the intimate connections between statistics and computing, and the need for Statistics to embrace data science.

幻灯片:http://www.stat.berkeley.edu/~binyu/ps/papers2014/IMS-pres-address14-yu.pdf

中文演讲视频:

在悉尼的英文演讲视频(略有不同):http://www.youtube.com/watch?v=92OjsYQJC1U

R绘制中国地图,并展示流行病学数据

本文作者:姜晓东,博士毕业于上海交通大学,目前任教于湖南师范大学医学院,专业神经毒理学。

流行病学的数据讲究“三间分布”,即人群分布、时间分布和空间分布。其中的“空间分布”最好是在地图上展示,才比较清楚。R软件集统计分析与高级绘图于大成,是最适合做这项工作了。关于地图的绘制过程,谢益辉、邱怡轩和陈丽云等人都早有文章讲述,开R地图中文教程之先河。由于目前指导毕业论文用到,因此研究了一下。本来因为网上教程很多,曾打消了写些文字的计划,但怡轩版主鼓励说“教程者众,整合者鲜”,所以才战胜拖延症,提起拙笔综述整合一下,并对DIY统计GIS地图提出了一点自己的想法。

1 地图GIS数据的来源与R绘制软件包

中国地图GIS数据的官方数据可以在国家基础地理信息中心的网站(http://nfgis.nsdi.gov.cn)里面可以免费下载。官方公开的数据包括:地图数据,及居住地、交通、河流等辅助数据。今年6月开始,官方正组织开始制作新版数据。老数据暂时无法下载,读者要自行百度搜索,本文以旧版数据为例。旧版地图数据中部分地名和地市区划已经过时,使用时需注意。

地图数据有4个压缩文件:bou1_4m.zip、bou2_4m.zip、bou3_4m.zip和bou4_4m.zip。bou代表边界的意思,数字1~4代表国家、省、市、县的4级行政划分;4m代表比例是400万分之一,这个比例的图形是公开的。每个文件解压缩后含有两类文件:以字母p结尾的表示多边形数据,用来绘制区域;以字母l结尾的文件是线形数据,用来绘制边界。但是老版数据中,市级数据中缺少绘制区域的多边形数据,让市级分布图的绘制稍麻烦一些,新版中也许会有改进。

用R绘制地图比较简单。比如画一下全国范围的区域,可以用如下代码:

library(maptools)
mydat = readShapePoly("maps/bou1/bou1_4p.shp")
plot(mydat)

unnamed-chunk-1
但是,可以看出这样绘制的地图的形状有些扁平。这是因为,在绘图的过程中,默认把经度和纬度作为普通数据,均匀平等对待,绘制在笛卡尔坐标系上造成的。其实,地球的球面图形如何映射到平面图上,在地理学上是有一系列不同的专业算法的。地图不应该画在普通的笛卡尔坐标系上,而是要画在地理学专业的坐标系上。在这一点上,R的ggplot2包提供了专门的coord_map()函数。所以推荐R的ggplot2包来绘制地图。

library(ggplot2)
mymap = ggplot(data = fortify(mydat)) +
    geom_polygon(aes(x = long, y = lat, group = id), colour = "black",
                 fill = NA) +
    theme_grey()
print(mymap + coord_map())

unnamed-chunk-2
这次中国地图的形状与百度地图一样了。 继续阅读

他乡与梦想:吕令子纪念基金

大家应该还记得在 2013 年 4 月 15 日美国波士顿马拉松比赛终点发生的爆炸案。在不幸遇难的受害者中,有一位来自中国的年轻学生吕令子。当时,她正在波士顿大学(Boston University)攻读统计学研究生。悲剧让世界失去了一个年轻的生命,也让活在世间的人们再次审视生命的价值和意义。

在悲剧发生之后,各界人士聚集力量成立了好几个纪念吕令子的基金。吕令子纪念基金(http://www.amstat.org/awards/lingzilumemorialaward.cfm)便是其中之一。吕令子纪念基金由波士顿大学的 Eric Kolaczyk 教授提议,并以美国统计学会和泛华统计学会这两个学术学会发起成立。作为一个由学术组织创立的基金,吕令子纪念基金的主要目的是怀念吕令子——这位统计学科不幸失去的年轻一员——同时也寄望建立一个平台,以支持像吕令子这样的年轻学生在统计学方向追求他们的理想。

经过一年时间的努力,在多位统计学家和相关企业的支持下,吕令子纪念基金筹集到了初期运作所需的基本金额。在筹款过程中,不少知名的统计学家都积极地参与了捐款和募捐。由明年起,吕令子纪念基金每年会以奖金的形式资助 1300 美元给一名在读或刚毕业的统计硕士生参加二月召开的美国统计协会统计实践会议(ASA Conference on Statistical Practice )。该奖项的申请现已开始,截止日期为 2014 年 10 月 15 日,符合资格和有兴趣申请的同学可参看本文附录或访问 ASA 官方网页:

http://www.amstat.org/awards/lingzilumemorialaward.cfm

吕令子同学生前也是统计之都微博的一位粉丝。作为一个推广统计学与数据科学的社区,我们统计之都也为失去吕令子这位成员而感到悲痛。我们希望以统计之都的微薄力量,让更多和吕令子有类似梦想的年轻学生在统计学这个社区中感受到相互支持和关爱!

附:

申请吕令子纪念基金奖学金的流程:

写邮件给 pamela@amstat.org 获取申请表,然后将申请信,三封推荐信,简历,和个人短文以邮件或邮寄的方式递交给Pam Craven at pamela@amstat.org:
American Statistical Association
Attn: Awards Nominations
732 N. Washington Street
Alexandria, VA 22314-1943
申请截止日期:十月十五日

如何捐款给吕令子纪念基金:

有兴趣为吕令子纪念基金慷慨解囊的人士,请移步这里 http://www.amstat.org/awards/lingzilumemorialaward.cfm

吕令子有关的其他基金:

  1. Lingzi Foundation:http://lingzifoundation.org
    A not-for-profit organization based in Boston Massachusetts formed by the family of Lu Lingzi, who perished during the Boston Marathon bombing attack, to preserve and perpetuate Lingzi’s life example.
  2. 吕令子奖学金(THE LU LINGZI SCHOLARSHIP FUND):http://www.bu.edu/alumni-forms/forms/lu-lingzi-fund/
    波士顿大学校董以投票决定设立吕令子奖学金。校董事会成员已向该基金集体捐赠了56万多美元。

关于美国统计学会(American Statistical Association):http://www.amstat.org

美国统计学会(ASA)是世界上规模最大的统计学协会,是“统计学的大本营”。美国统计学会通过会议、出版物、会员服务、教育、认证和宣讲来支持统计学科的发展、应用和传播。它的会员遍布全球90余个国家,服务于工业界、政府和学术界,通过推进统计研究和提升统计实践水平来告知公共政策,提升人类福祉。

关于泛华统计协会(International Chinese Statistical Association):http://www.icsa.org

泛华统计协会(ICSA)正式发起于1987年的联合统计会议(简称 JSM,该年于旧金山召开),之后于1988年8月8日在 Delaware 成立实体组织,并在美国正式注册成为一个非营利组织。协会的会员资格向所有与统计学相关的个人和组织开放。

协会目前拥有超过 1000 名的活跃会员,并于 2008 年成为了JSM的特别合作伙伴。ICSA 发行了两部期刊:Statistica Sinica 和 Statistics in Biosciences。协会通过 ICSA 会刊和 ICSA 新闻通讯与会员进行交流。ICSA 的日常办公室设在美国佐治亚州斯泰茨伯勒的佐治亚南方大学徐建萍公共卫生学院。

COS每周精选:A visual explanation of Markov Chains

本周投稿:谢益辉 冷静 施涛

  •  Norm Matloff教授的开放书籍一本:我觉得这老爷子挺擅长写东西给初学者的
  • Terence’s Stuff: Give Industry a Chance
  •  百年地震数据供查询,数据为王的时代,珍贵矿藏还不赶快收藏~
  • 一本关于R的文本数据处理的免费电子书,正所谓书到用时方恨少,事非经过不知难。电子书一本接着一本,你可看过多少?
  •  上哪儿找数据?(不要点我,不要点我)
  • 有闲功夫的人真多啊,看这里有一个“牛说”的R包。但宠萌系的童鞋一定不要错过,各种喵神汪神齐聚于此。
  • 各种排序算法的声音,强迫症患者看了一定觉得通体舒展,混乱的数值最后被排得整整齐齐。
  • 新书快递《实践可重复性研究》:虽然小编参与撰写了其中一章,这个话题也很重要,但学术界应该心知肚明这种集合编写的书的质量……好吧,我承认只是我这章其实没怎么走心,请看官绕道……
  • 神经网络、流形和拓扑 一篇观点详实,证明充分的好文章~
  • 猫眼窥R 一份初级R语言教程。
  • 一个关于心理学中“锚定效应”的试验:Thomas Lumley大人又顽皮了,他让学生把自己的电话号码所有数字加起来,然后再估计非洲有多少个国家,本来这是两个不相关的变量,但学生似乎受了电话号码数字之和的影响,和越大,他们的估计越高。话说大家可知道这个网站专门存放着其他地方不让放的吗,等待大家探秘哟。
  • - 如果你只知道一位女性的名字,如何估计她的年龄
  • 斯坦福教授Art Owen(江湖绝技:经验似然)放出了一本关于蒙特卡洛的免费电子书“Monte Carlo theory,methods and examples” 。大家当做茶余饭后的甜点看看可好?
  • 论画图需要标明坐标轴的重要性。此图甚冷,大家做好准备。
  • 又一个关于大数据、数据科学和统计学的讨论,不过这次出手的是Terry Speed,大大。有什么值得学习的地方吗?
  • 马尔可夫链的可视化。此处光看图也是一种享受O(∩_∩)O~

IMS:一个洲际人际交流网络(为学生免费提供会员资格)

译者注:原文刊登于 IMS Bulletin,作者为国际数理统计学会(Institute of Mathematical Statistics)现任主席郁彬教授。郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

本文由肖楠、尤晓斌和蔡占锐翻译,邱怡轩、郁彬老师校对。

随着我在IMS(国际数理统计学会)的主席任期行将结束,继而成为“前任主席”之际, 我想为吸纳新成员作出努力而回顾 IMS 的作用。正如 IMS 网站所述:“ IMS 的宗旨在于促进统计和概率的理论与应用的发展和传播”。伴随着数据科学的出现,统计和概率思维在数据科学中扮演着越来越出众的角色,而 IMS 能否吸引更多的成员也变得至关重要。尤其是在诸如统计,概率,应用数学,计算机科学,电子工程和其他数据科学相关学科行将获得学历的人才,都将成为IMS的关注对象。对于这些年轻人而言,他们有一大部分职业生涯会在本职工作岗位,而另一部分将会是在诸如 IMS 等专业学会中。

IMS 是个什么样的组织呢?回忆一下 IMS 的起源将会让我们更好地认识它。1930 年,Annals of Mathematical Statistics(数理统计年刊)成立。随后的 1935 年,在密歇根大学统计教授 Carver 的努力下促成了 IMS 独立于 ASA(美国统计协会)而组建,以帮助数理统计学家建立联系的纽带。1938 年,年刊的编委会由诸多重量级统计学者组成,Wilks(主编),Fisher,Neyman,Hotelling,Pearson,Darmois,Craig,Deming,von Mises,Rietz,Shewhart 均在编辑之列。1973年期刊被分为两份刊物,一为 Annals of Statistics(统计学年刊),另一为 Annals of Probability(概率论年刊)。之后,Statistical Science(统计科学),Annals of Applied Probability(应用概率论年刊)及 Annals of Applied Statistics(应用统计学年刊)随之创立。此外 IMS 也和其他学术组织合作创办了期刊,例如 Electronic Journal of Probability(概率论电子期刊),the Electronic Journal of Statistics(统计学电子期刊),the Journal of Computational and Graphical Statistics(计算机及图形统计期刊),Probability Surveys(概率论与统计调查)以及 Statistics Surveys(统计学与统计调查)。从一开始,IMS 的重点就在高质量的期刊上。今天,IMS 已有更多重点,包括举办主要学术峰会和颁发统计概率领域重要奖项

继续阅读