COS沙龙第22期(北京)


2014-10-19 162807

 

2014年10月19日,第22期COS沙龙(北京站)在北京大学光华管理学院如期举行。各位统计爱好者冒着京城茫茫的雾霾前来,统计沙龙为大家呈现了一场主题为“移动音频推荐系统实践二三事”的精彩分享。本次沙龙由人大统院本科生闫晗主持,嘉宾是考拉FM&考拉电子狗推荐系统的负责人陈开江继续阅读

第七届中国R语言会议(广州会场)通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了六届R语言会议,促进了R语言乃至数据科学在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,中山大学数学与计算科学学院、华南统计科学研究中心和统计之都将于2014年11月15日在中山大学南校区举办第七届中国R语言会议(广州会场)。这将是R语言会议首次在华南地区举办。

除了统计之都主站,会务信息还会通过统计之都微信(扫描本页面右侧微信公众平台二维码即可关注)、微博(@统计之都)来发布,欢迎大家关注获取最新消息。

会议的相关情况如下:

一、会议时间

2014年11月15日。

二、会议地点

广州市海珠区新港西路135号中山大学南校区网络中心报告厅。中山大学
继续阅读

R绘制中国航线分布夜景图

本文作者:李根,资深数据分析师,数学爱好者。

绘制数据地图是一种有效展现空间数据的方法,美丽的数据展示更容易引起读者的共鸣。本地图设计的初衷是展示中国航线的分布规律,进而可以分析成本、客流量等问题。

flight-night-scene本文参考了以下文献进行绘制:
http://spatialanalysis.co.uk/2012/06/mapping-worlds-biggest-airlines/

一、地图数据来源

地图所使用的数据均可以从网上下免费下载。
航线、机场坐标:http://openflights.org/data.html

  • 机场:airports.dat
  • 航线:routes.dat

板块地图、都市地图:http://www.naturalearthdata.com/downloads/

  • 世界地图:ne_10m_admin_0_countries.shp
  • 都市地图:ne_10m_urban_areas.shp

(注:都市地图是用来绘制灯光效果的。)

继续阅读

郁彬:让我们拥抱数据科学(Let us own data science)

郁彬教授8月22日在北京大学做了名为让我们拥抱数据科学(Let us own data science)的讲座。在演讲中郁彬从一个统计学家的角度出发,讲述了数据科学的兴起历史和目前状况,并且对统计学科、从事统计相关工作的人士如何跟上时代步伐拥抱数据科学给出了非常多的建议。经过郁彬的允许和支持,本文分享了她此次演讲的幻灯片和视频!

演讲人介绍:郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

讲座摘要:This talk is a repeat of my IMS Presidential Address in Sydney at the joint conference of Statistical Society of Australia and IMS in July, 2014. It is about the history of the statistics discipline, the intimate connections between statistics and computing, and the need for Statistics to embrace data science.

幻灯片:http://www.stat.berkeley.edu/~binyu/ps/papers2014/IMS-pres-address14-yu.pdf

中文演讲视频:

在悉尼的英文演讲视频(略有不同):http://www.youtube.com/watch?v=92OjsYQJC1U

R绘制中国地图,并展示流行病学数据

本文作者:姜晓东,博士毕业于上海交通大学,目前任教于湖南师范大学医学院,专业神经毒理学。

流行病学的数据讲究“三间分布”,即人群分布、时间分布和空间分布。其中的“空间分布”最好是在地图上展示,才比较清楚。R软件集统计分析与高级绘图于大成,是最适合做这项工作了。关于地图的绘制过程,谢益辉、邱怡轩和陈丽云等人都早有文章讲述,开R地图中文教程之先河。由于目前指导毕业论文用到,因此研究了一下。本来因为网上教程很多,曾打消了写些文字的计划,但怡轩版主鼓励说“教程者众,整合者鲜”,所以才战胜拖延症,提起拙笔综述整合一下,并对DIY统计GIS地图提出了一点自己的想法。

1 地图GIS数据的来源与R绘制软件包

中国地图GIS数据的官方数据可以在国家基础地理信息中心的网站(http://nfgis.nsdi.gov.cn)里面可以免费下载。官方公开的数据包括:地图数据,及居住地、交通、河流等辅助数据。今年6月开始,官方正组织开始制作新版数据。老数据暂时无法下载,读者要自行百度搜索,本文以旧版数据为例。旧版地图数据中部分地名和地市区划已经过时,使用时需注意。

地图数据有4个压缩文件:bou1_4m.zip、bou2_4m.zip、bou3_4m.zip和bou4_4m.zip。bou代表边界的意思,数字1~4代表国家、省、市、县的4级行政划分;4m代表比例是400万分之一,这个比例的图形是公开的。每个文件解压缩后含有两类文件:以字母p结尾的表示多边形数据,用来绘制区域;以字母l结尾的文件是线形数据,用来绘制边界。但是老版数据中,市级数据中缺少绘制区域的多边形数据,让市级分布图的绘制稍麻烦一些,新版中也许会有改进。

用R绘制地图比较简单。比如画一下全国范围的区域,可以用如下代码:

library(maptools)
mydat = readShapePoly("maps/bou1/bou1_4p.shp")
plot(mydat)

unnamed-chunk-1
但是,可以看出这样绘制的地图的形状有些扁平。这是因为,在绘图的过程中,默认把经度和纬度作为普通数据,均匀平等对待,绘制在笛卡尔坐标系上造成的。其实,地球的球面图形如何映射到平面图上,在地理学上是有一系列不同的专业算法的。地图不应该画在普通的笛卡尔坐标系上,而是要画在地理学专业的坐标系上。在这一点上,R的ggplot2包提供了专门的coord_map()函数。所以推荐R的ggplot2包来绘制地图。

library(ggplot2)
mymap = ggplot(data = fortify(mydat)) +
    geom_polygon(aes(x = long, y = lat, group = id), colour = "black",
                 fill = NA) +
    theme_grey()
print(mymap + coord_map())

unnamed-chunk-2
这次中国地图的形状与百度地图一样了。 继续阅读