第五届中国R语言会议(北京会场)纪要

第五届中国 R 语言会议(北京会场)于 2012 年 5 月 26 日 ~ 27 日在中国人民大学明德法学楼 0201 成功召开。会议由中国人民大学应用统计科学研究中心与中国人民大学统计学院、统计之都 (cos.name) 主办,mango-solutions赞助。在两天的会议时间里,参会者齐聚一堂,就 R 语言在互联网、商业、统计、生物等诸多方面的应用进行了深入的探讨。

会议概况

本次会议报名非常火爆,吸引了 300 多名参会者前来参会,规模再创历届之最。参会者主要来自各大高校、科研机构、企业和事业单位,全体参会者所在单位汇总如下。

高校和研究所:

University of Southern California、University of Wisconsin、北京城市学院、北方工业大学、北京大学、北京大学医学部、北京航空航天大学、北京化工大学、北京市科学技术研究院、北京理工大学、北京林业大学、北京市农林科学院、北京基因组研究所、北京邮电大学、北京师范大学、北京协和医学院、北京中医药大学、东北大学、东北农业大学、对外经济贸易大学、电子科技大学、国防科技大学、河北经贸大学、华北电力大学、华中农业大学、吉林大学、军事医学科学院、机械工业信息研究院、兰州理工大学、宁波工程学院、南京财经大学、南开大学、清华大学、山东大学、首都经济贸易大学、西沃成生态环境研究所、西北农林科技大学、永安期货研究院、云南财经大学、中国传媒大学、中国疾病预防控制中心、中国科学技术大学、中国科学技术信息研究所、中国矿业大学(北京)、中国林科院资源信息所、中国农业大学、中国农业科学院、中国人民大学、中科院半导体所、中科院地理所、中科院动物所、中科院计算技术研究所、中科院北京基因组研究所、中科院数学所、中科院生物物理研究所、中科院自动化研究所、中科院植物所、中南大学、中央财经大学

企业、事业单位:

Allianz Global Assistance、艾美仕咨询公司、埃森哲、艾亿新融资本管理公司、宝宝树信息技术有限公司、暴风影音、百济神州(北京)生物科技有限公司、北京安泰科信息开发有限公司、北京紫博蓝网络技术服务有限公司、北京贝瑞和康生物技术有限公司、北京德昂信息技术有限公司、北京果壳互动科技传媒有限公司、北京名影科漫有限公司、北京雀巢研发中心有限公司、北京瑞星信息技术有限公司、北京神州数码思特奇信息技术股份有限公司、北京网达信联科技发展有限公司、北京雪球财经信息科技有限公司、北京中彩在线科技有限责任公司、北京中软国际信息技术有限公司、北京质量协会、百度、北森、豆瓣、当当网、Doubleday Enterprises、敦煌网、凡客诚品、风行在线、广联达软件股份有限公司、华夏人寿、弘毅远道科技有限公司、IBM、IMS、ICON医药咨询有限公司、京东商城、精品购物指南、江苏百盛工程咨询有限公司、KPMG、乐视网、Mango Solutions、NCUK、Oracle、澳际PMP、奇虎360、去哪儿网、盘古文化传播有限公司、普华基础软件股份有限公司、品友互动、人人网、Springer Beijing Office、山东浪潮齐鲁软件、水利部发展研究中心、SAS R&D(Beijing)、搜浩捌捌(北京)企业管理有限公司、上海证券交易所、腾讯科技、完美世界、新华社中经社控股有限公司、新浪微博、新浪乐居、讯奇、银华基金、优酷网、亚信联创、用友软件股份有限公司、知本咨询、中华英才网、中国环境监测总站、中国建设银行北京市分行、中金公司、中粮我买网、中国气象局

会议现场(点击看大图)

会议内容

本次会议讨论的主题涵盖了 R 语言在推荐系统、机器学习、金融、大规模数据分析、数据可视化、高性能计算、互联网研究等众多方面的最新进展,共进行了 18 场精彩的报告,会场反响热烈。会议的流程和主要内容摘录如下。

1、吴喜之教授致辞

吴喜之教授是国内推广 R 语言的先驱,他在致词中简述了 R 的诸多优势,如免费、公开、容易学习、可扩展、功能强大、不断更新等,并对现场的参会者提出了殷切的期待,希望大家能从 R 中不断学习新的统计知识。吴喜之教授幽默睿智的演讲受到了现场观众的热烈欢迎。

2、李舰 —— 基于 R 和 pentaho 的全套开源 BI 平台的实现

演讲介绍 pentaho 的社区 BI 平台,包括 BI 服务器、ETL 工具、OLAP 引擎、报表编辑器、元数据管理、开发平台、数据挖掘等,还介绍了演讲者开发的 rpentaho 包,演示如何在 R 中创建 pentaho 平台下的 R 应用,包括作图和分析等。此外,也简单介绍了 pentaho 和 hadoop 的集成产品以及 R 与 hadoop 的连接方案。演讲内容精彩,会后演讲者与参会者进行了热烈的讨论。

3、周涛 —— 个性化推荐的十大挑战

演讲介绍了个性化推荐在理论研究与业界应用中遇到的主要挑战和目前的处理方案,包括数据稀疏性问题、冷启动问题、大数据处理与增量计算问题、多样性与精确性的两难困境、推荐系统的脆弱性问题、用户行为模式的挖掘和利用、推荐系统效果评估、用户界面与用户体验、多维数据的交叉利用、社会推荐等十个问题。内容丰富多彩,促进了参会者对推荐系统的理解。

4、肖凯 —— 30 分钟学会 ggplot2

演讲通过类比剑招的学习形象清晰地介绍了 ggplot2 的绘图理念,讲述了 ggplot2 中的几大基本概念:数据、映射、标度、几何对象、统计变换、坐标系统和图层。然后展示了如何绘制基本统计图形,如散点图、直方图、条形图、箱线图等,以及如何自定义图形。最后提供了丰富的学习 ggplot2 的网络资源。

5、邱怡轩 —— R 中大规模数据的整理与分析

演讲将介绍一些用 R 处理大规模数据的常用方法,包括 R 与数据库的连接、ff 软件包以及稀疏矩阵的运算等。报告者首先讲解了 R 与数据库的连接中如何在不超过内存限制情况下进行分批次地进行运算。然后介绍了 ff 软件包,该包可将将 R 中常见的向量、矩阵、数据框等对象存储在硬盘上并数据操作。演讲最后通过微博中的“方寒”大战实例展示了如何进行大规模数据分析。

6、潘岚锋 —— 矩阵的稀疏分解新算法及其应用

演讲介绍了一个由作者提出的非负矩阵分解新算法以及对应的 R 包 bignmf。非负矩阵分解在图像处理、文本挖掘等领域中有着广泛的应用,非负的约束能够使分解的结果具有很好的解释性。新开发的包与现有的 NMF 包使用了不同的算法,算法本身速度很快;并且使用 Rcpp 实现,在速度上有了很大的提升。演讲最后给出了微博数据和图像数据的分析例子。

7、王剑 —— COS 沙龙介绍

演讲介绍了 COS 沙龙的起源、发展理念以及沙龙的组织和流程安排。给出了新 COS 沙龙的第一期交流安排,并面向社会征集沙龙话题,招募筹备小组组长和组员。COS 沙龙提供了一个良好的学习 R 和交流 R 应用心得的平台,期待各位 R 爱好者的积极参与。

7、魏太云 —— knitr 与动态报告生成系统

演讲介绍了 R 文学化编程的 knitr 包,主要用于生成动态报告,目前已经非常流行,在 LyX、RStudio 等 IDE 中都获得了相应的整合。knitr 的想法源于 Sweave,但功能完善了很多,并且规避了 Sweave 很多的不足之处。knitr 支持多种格式的输入 (比如 Rnw、md、rst) 和输出 (比如 HTML、PDF 等),并且支持代码整理、代码高亮、结果缓存等,非常便捷实用,是重复性报告的必备利器。

8、陈丽云 —— 统计辟谣训练营

演讲从一系列生活和新闻中常见的数字和故事出发,利用耳熟能详的统计工具,层层抽丝剥茧,揭开那些神奇数字的迷雾,让我们对于统计数字保持一颗清醒的头脑。

9、邓一硕 —— R 与金融投资分析的框架

演讲讲述金融投资分析的大致框架以及 R 语言在该框架中扮演的角色,具体包括 R 包在获取基础数据、进行财务数据分析、股价波动率分析、投资策略构建等环节中的应用。

10、孟生旺 —— R 在精算中的应用

本报告将主要通过一些示例来说明actuar,lifecontigencies, ChainLadder, glm 和 gamlss 等软件包在精算学习和研究中的应用价值,涉及损失模型、金融数学、寿险精算和非寿险准备金评估以及非寿险定价。

12、陈逸波 —— R 在社会网络分析中的一些应用

演讲大致介绍 R 在社会网络分析中的一些应用,主要通过人人网的数据分析,详细演示了如何利用 R 抓取数据、内容关键词统计、转发路径可视化、好友关系可视化、好友分组等内容,发现了许多有趣的结论。

13、段敏明 —— ORE workshop

演讲介绍了 Oracle 对 R 的支持与集成情况,通过实例的演示,演讲者展示了如何运用 Oracle R Enterprise 进行数据分析,以及如何使用 Oracle R Connector for Hadoop 助力大规模现实数据的处理。

14、黄金山 —— Rcpp 快速入门

演讲主要通过一些简单例子讲解了如何使用 Rcpp 提供的 C++ API。内容主要包括 Rcpp 数据类型和基本操作、as 和 wrap、迭代器和泛型算法、调用 R 中的函数和 Rcpp 语法糖。

15、叶明 —— R 在工业智能中的应用

演讲详细介绍了两个 R 在工业应用的案例,一个是国航飞机发动机润滑油的监控,另一个是上海市铁路局呼叫中心的预测。演讲者在最后还提出了一些有意义的统计发展的方向性问题。

16、陆银波 —— 隐马尔科夫链的理论及其应用

演讲首先介绍了 HMM 的基础理论框架,包括模型定义,参数估计和后续分析。然后利用 R 中的 HiddenMarkov 和 depmixS4 包,通过 3 个具体例子介绍了 HMM 在气象、金融和行为实验中的应用,为这些领域传统的研究方式提供了新的思路。

17、郝智恒 —— 试验设计在机器学习中的应用初探

演讲首先介绍了试验设计的背景,讲述了从 Fisher 的农田试验到如今的计算机试验的发展过程,以及推动试验设计发展的实际背景。然后讲述了将试验设计用于机器学习中训练样本选取的两个模拟实例:一个是序贯设计在 Active Learning 中的应用,它可以减少训练样本数量,达到控制成本的效果;另一个是将近似正交拉丁超立方体抽样以及均匀设计等设计方法运用于 Lasso 变量选择过程的样本选取。

18、李欣海 —— 用 R 实现随机森林的分类与回归

演讲首先简要回顾了随机森林的原理,然后以朱鹮的生境选择为例介绍了随机森林在分类 (朱鹮生境选择与否) 上的应用,以亚洲象生境退缩为例介绍了随机森林在回归 (纬度与 9 种环境变量的关系) 上的应用。

资源下载

经演讲者的授权同意,已将所有同意公开的幻灯片加了超链接供大家下载学习。

感想和建议

如果您对于中国 R 语言会议还有任何感想、意见或建议,欢迎您在本页面、统计之都人人网页面统计之都新浪微博留言,我们会尽力在今后对会议质量进行进一步的改善。

关于COS编辑部

本账户为COS编辑部公共账户,目前由朱雪宁任主编,由王小宁和张心雨担任副总编,编辑有:蔡占锐,常象宇,邓金涛,邓一硕,丁维悦,范超,冯璟烁,冯凌秉,高涛,郎大为,吕翔,彭晨昱,邱怡轩,施涛,覃文锋,王健桥,魏太云,吴佳萍,谢益辉,熊熹,杨舒仪,于嘉傲,主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。

第五届中国R语言会议(北京会场)纪要》有20个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注