第七届中国R语言会议(广州会场)通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了六届R语言会议,促进了R语言乃至数据科学在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,中山大学数学与计算科学学院、华南统计科学研究中心和统计之都将于2014年11月15日在中山大学南校区举办第七届中国R语言会议(广州会场)。这将是R语言会议首次在华南地区举办。

除了统计之都主站,会务信息还会通过统计之都微信(扫描本页面右侧微信公众平台二维码即可关注)、微博(@统计之都)来发布,欢迎大家关注获取最新消息。

会议的相关情况如下:

一、会议时间

2014年11月15日。

二、会议地点

广州市海珠区新港西路135号中山大学南校区网络中心报告厅。中山大学
继续阅读

R绘制中国航线分布夜景图

本文作者:李根,资深数据分析师,数学爱好者。

绘制数据地图是一种有效展现空间数据的方法,美丽的数据展示更容易引起读者的共鸣。本地图设计的初衷是展示中国航线的分布规律,进而可以分析成本、客流量等问题。

flight-night-scene本文参考了以下文献进行绘制:
http://spatialanalysis.co.uk/2012/06/mapping-worlds-biggest-airlines/

一、地图数据来源

地图所使用的数据均可以从网上下免费下载。
航线、机场坐标:http://openflights.org/data.html

  • 机场:airports.dat
  • 航线:routes.dat

板块地图、都市地图:http://www.naturalearthdata.com/downloads/

  • 世界地图:ne_10m_admin_0_countries.shp
  • 都市地图:ne_10m_urban_areas.shp

(注:都市地图是用来绘制灯光效果的。)

继续阅读

郁彬:让我们拥抱数据科学(Let us own data science)

郁彬教授8月22日在北京大学做了名为让我们拥抱数据科学(Let us own data science)的讲座。在演讲中郁彬从一个统计学家的角度出发,讲述了数据科学的兴起历史和目前状况,并且对统计学科、从事统计相关工作的人士如何跟上时代步伐拥抱数据科学给出了非常多的建议。经过郁彬的允许和支持,本文分享了她此次演讲的幻灯片和视频!

演讲人介绍:郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

讲座摘要:This talk is a repeat of my IMS Presidential Address in Sydney at the joint conference of Statistical Society of Australia and IMS in July, 2014. It is about the history of the statistics discipline, the intimate connections between statistics and computing, and the need for Statistics to embrace data science.

幻灯片:http://www.stat.berkeley.edu/~binyu/ps/papers2014/IMS-pres-address14-yu.pdf

中文演讲视频:

在悉尼的英文演讲视频(略有不同):http://www.youtube.com/watch?v=92OjsYQJC1U

R绘制中国地图,并展示流行病学数据

本文作者:姜晓东,博士毕业于上海交通大学,目前任教于湖南师范大学医学院,专业神经毒理学。

流行病学的数据讲究“三间分布”,即人群分布、时间分布和空间分布。其中的“空间分布”最好是在地图上展示,才比较清楚。R软件集统计分析与高级绘图于大成,是最适合做这项工作了。关于地图的绘制过程,谢益辉、邱怡轩和陈丽云等人都早有文章讲述,开R地图中文教程之先河。由于目前指导毕业论文用到,因此研究了一下。本来因为网上教程很多,曾打消了写些文字的计划,但怡轩版主鼓励说“教程者众,整合者鲜”,所以才战胜拖延症,提起拙笔综述整合一下,并对DIY统计GIS地图提出了一点自己的想法。

1 地图GIS数据的来源与R绘制软件包

中国地图GIS数据的官方数据可以在国家基础地理信息中心的网站(http://nfgis.nsdi.gov.cn)里面可以免费下载。官方公开的数据包括:地图数据,及居住地、交通、河流等辅助数据。今年6月开始,官方正组织开始制作新版数据。老数据暂时无法下载,读者要自行百度搜索,本文以旧版数据为例。旧版地图数据中部分地名和地市区划已经过时,使用时需注意。

地图数据有4个压缩文件:bou1_4m.zip、bou2_4m.zip、bou3_4m.zip和bou4_4m.zip。bou代表边界的意思,数字1~4代表国家、省、市、县的4级行政划分;4m代表比例是400万分之一,这个比例的图形是公开的。每个文件解压缩后含有两类文件:以字母p结尾的表示多边形数据,用来绘制区域;以字母l结尾的文件是线形数据,用来绘制边界。但是老版数据中,市级数据中缺少绘制区域的多边形数据,让市级分布图的绘制稍麻烦一些,新版中也许会有改进。

用R绘制地图比较简单。比如画一下全国范围的区域,可以用如下代码:

library(maptools)
mydat = readShapePoly("maps/bou1/bou1_4p.shp")
plot(mydat)

unnamed-chunk-1
但是,可以看出这样绘制的地图的形状有些扁平。这是因为,在绘图的过程中,默认把经度和纬度作为普通数据,均匀平等对待,绘制在笛卡尔坐标系上造成的。其实,地球的球面图形如何映射到平面图上,在地理学上是有一系列不同的专业算法的。地图不应该画在普通的笛卡尔坐标系上,而是要画在地理学专业的坐标系上。在这一点上,R的ggplot2包提供了专门的coord_map()函数。所以推荐R的ggplot2包来绘制地图。

library(ggplot2)
mymap = ggplot(data = fortify(mydat)) +
    geom_polygon(aes(x = long, y = lat, group = id), colour = "black",
                 fill = NA) +
    theme_grey()
print(mymap + coord_map())

unnamed-chunk-2
这次中国地图的形状与百度地图一样了。 继续阅读

他乡与梦想:吕令子纪念基金

大家应该还记得在 2013 年 4 月 15 日美国波士顿马拉松比赛终点发生的爆炸案。在不幸遇难的受害者中,有一位来自中国的年轻学生吕令子。当时,她正在波士顿大学(Boston University)攻读统计学研究生。悲剧让世界失去了一个年轻的生命,也让活在世间的人们再次审视生命的价值和意义。

在悲剧发生之后,各界人士聚集力量成立了好几个纪念吕令子的基金。吕令子纪念基金(http://www.amstat.org/awards/lingzilumemorialaward.cfm)便是其中之一。吕令子纪念基金由波士顿大学的 Eric Kolaczyk 教授提议,并以美国统计学会和泛华统计学会这两个学术学会发起成立。作为一个由学术组织创立的基金,吕令子纪念基金的主要目的是怀念吕令子——这位统计学科不幸失去的年轻一员——同时也寄望建立一个平台,以支持像吕令子这样的年轻学生在统计学方向追求他们的理想。

经过一年时间的努力,在多位统计学家和相关企业的支持下,吕令子纪念基金筹集到了初期运作所需的基本金额。在筹款过程中,不少知名的统计学家都积极地参与了捐款和募捐。由明年起,吕令子纪念基金每年会以奖金的形式资助 1300 美元给一名在读或刚毕业的统计硕士生参加二月召开的美国统计协会统计实践会议(ASA Conference on Statistical Practice )。该奖项的申请现已开始,截止日期为 2014 年 10 月 15 日,符合资格和有兴趣申请的同学可参看本文附录或访问 ASA 官方网页:

http://www.amstat.org/awards/lingzilumemorialaward.cfm

吕令子同学生前也是统计之都微博的一位粉丝。作为一个推广统计学与数据科学的社区,我们统计之都也为失去吕令子这位成员而感到悲痛。我们希望以统计之都的微薄力量,让更多和吕令子有类似梦想的年轻学生在统计学这个社区中感受到相互支持和关爱!

附:

申请吕令子纪念基金奖学金的流程:

写邮件给 pamela@amstat.org 获取申请表,然后将申请信,三封推荐信,简历,和个人短文以邮件或邮寄的方式递交给Pam Craven at pamela@amstat.org:
American Statistical Association
Attn: Awards Nominations
732 N. Washington Street
Alexandria, VA 22314-1943
申请截止日期:十月十五日

如何捐款给吕令子纪念基金:

有兴趣为吕令子纪念基金慷慨解囊的人士,请移步这里 http://www.amstat.org/awards/lingzilumemorialaward.cfm

吕令子有关的其他基金:

  1. Lingzi Foundation:http://lingzifoundation.org
    A not-for-profit organization based in Boston Massachusetts formed by the family of Lu Lingzi, who perished during the Boston Marathon bombing attack, to preserve and perpetuate Lingzi’s life example.
  2. 吕令子奖学金(THE LU LINGZI SCHOLARSHIP FUND):http://www.bu.edu/alumni-forms/forms/lu-lingzi-fund/
    波士顿大学校董以投票决定设立吕令子奖学金。校董事会成员已向该基金集体捐赠了56万多美元。

关于美国统计学会(American Statistical Association):http://www.amstat.org

美国统计学会(ASA)是世界上规模最大的统计学协会,是“统计学的大本营”。美国统计学会通过会议、出版物、会员服务、教育、认证和宣讲来支持统计学科的发展、应用和传播。它的会员遍布全球90余个国家,服务于工业界、政府和学术界,通过推进统计研究和提升统计实践水平来告知公共政策,提升人类福祉。

关于泛华统计协会(International Chinese Statistical Association):http://www.icsa.org

泛华统计协会(ICSA)正式发起于1987年的联合统计会议(简称 JSM,该年于旧金山召开),之后于1988年8月8日在 Delaware 成立实体组织,并在美国正式注册成为一个非营利组织。协会的会员资格向所有与统计学相关的个人和组织开放。

协会目前拥有超过 1000 名的活跃会员,并于 2008 年成为了JSM的特别合作伙伴。ICSA 发行了两部期刊:Statistica Sinica 和 Statistics in Biosciences。协会通过 ICSA 会刊和 ICSA 新闻通讯与会员进行交流。ICSA 的日常办公室设在美国佐治亚州斯泰茨伯勒的佐治亚南方大学徐建萍公共卫生学院。