第八届中国R语言会议(武汉)暨华中地区数据科学会议

第八届中国R语言会议(武汉会场)暨华中地区数据科学会议于2015年11月7日在湖北经济学院大学生活动中心二号报告厅顺利举行。会议由湖北经济学院统计学院和统计之都主办,湖北数据与分析中心协办,优酷土豆和辰智咨询提供了赞助。会议当天,众多R语言兴趣爱好者齐聚一堂,就R语言在行业中的应用进行了交流探讨。经过大家的努力,R语言的火种顺利传到了武汉,接下来还会一直传递下去。

wh-001

会议概况

本次会议是R语言会议第一次在武汉地区举办,会议吸引了500余名R语言学习者注册报名,有近300名参会者前来参会,参会者主要来自各大高校、研究机构和企业单位。

会议内容

本次会议的内容涉及了R语言在银行大数据、自动化报告、API部署及GIS技术开发等领域的应用以及基于R软件的传染病监测系统数据可视化、手机运营商数据分析、大数据建模和数据整理等内容。会议共有8位嘉宾演讲,来自不同领域的多位数据科学家带领着现场的参会者进行了一次精彩的R语言之旅。

会议流程和主要内容摘录如下:

  1. 开幕致辞wh-002

会议筹备组主席李巧玲代表整个筹备组对各位来宾表示欢迎,同时也分享了在会议筹备过程中的一些经历、感受,令人忍俊不禁却又发人深省。

湖北经济学院副院长鲁晓成教授随后代表学校致欢迎辞。鲁校长研究生阶段学习的是数学,博士阶段又学习了计算机,对数据科学的发展十分关注,同时他也希望学校能培养出更多高质量的数据分析人才。

最后,湖北经济学院统计学院副院长张志刚对大家表示了欢迎。张老师十分重视R语言的学习,他说,几年前是一个“触电(电商)”的时代,而现在是“拥抱大数据”的时代,在数据科学发展的路上我们任重而道远。

  1. 谢军: 当R真的遇到了大数据wh-003

谢军博士从事数据分析行业已有28年,拥有丰富的金融大数据处理经验,现任上海雅捷信息技术股份有限公司的首席数据科学家。

银行业务运行会产生大量的数据,5000万客户,9000万账户,100个产品,10个渠道,100项客户属性。客户行为描述往往是5000万行5000列的巨大表,传统的IT构架无法应对实时随机查询,R、Hadhoop和GPU结合使用可以获得400倍的分析提速。演讲中谢军博士还向大家推荐了R语言的另一个会议“R/Finance”,并欢迎社会各界的大数据学习者加入雅捷。

  1. 李舰:R与自动化报告wh-004

李舰先生专注于数据科学在行业里的应用。擅长R语言的工程开发与分析建模,是 Rweibo、Rwordseg、tmcn、Rofficetool 等 R 包的作者,现任堡力山集团副总。

自动化是指使一些固定的分析流程和报告格式的可重复性。李舰先生的演讲详细介绍了不同的报告系统生成不同格式报告的自动化解决方案,其中包括Knitr、TEX、LATEX、HTML5、Markdown等的安装、优缺点以及用代码生成幻灯片的举例。此外,李舰先生还提到了ECharts网站,ECharts是一个拥有互动图形用户界面(GUI)的数据可视化工具,浏览ECharts不仅能看到数据图表而且能自己动手改变图表。

  1. 肖凯:基于OpenCPU的R模型部署wh-005

肖凯先生是《数据科学中的R语言》的作者之一,现任1号店商务智能部资深数据挖掘工程师。

OpenCPU是一个服务接口,将Web地址翻译成相应的R函数以供调用,Web API是应用程序接口,可以通过网络调用某个功能或资源。我们可以用R建立一个预测模型,加载OpenCPU包将其部署成API以供外部调用预测。肖凯先生以预测iris中花的种类为例,现场演示了对本地R函数的调用过程。

  1. 何宇兵:商业大数据时代,GIS和R更配wh-006

何宇兵先生是上海辰智商务信息咨询有限公司GIS商业应用研究中心技术总监,他主要关注GIS在选址规划、经营数据地理可视化、市场潜力分析、物流优化等领域的应用,从事GIS(地理信息系统)技术开发和商业应用研究工作近10年。

地理信息系统(GIS)被广泛地应用在选址规划、市场拓展、营销管理、物流优化等方面。何宇兵先生通过物流选址规划和房价预测的实例向大家介绍了R在GIS商圈分析平台构建过程中的应用,并以“The application of GIS is only limited by the imagination of those who use it”做结,说明了GIS技术的无限可能性。

  1. 张兵:基于R软件的传染病监测系统数据可视化及分析平台搭建wh-007

张兵先生毕业于华中科技大学劳动卫生与环境卫生学系,目前就职于浙江省疾病预防控制中心,研究方向为环境流行病学和传染病模型,同时也致力于推广R软件在公共卫生领域的应用。

人类健康的发展史就是一部与传染病的斗争史,通过传染病监测进而准确地揭示传染病的动态分布规律及其可能的危险因素,可为控制和消灭传染病的流行提供依据。本次演讲中,张兵先生从传染病数据可视化及统计分析平台的背景、简介及构建等方面介绍了dplyr、DCluster、ggplot2等R包在传染病数据处理中的应用并向大家推荐了Applied Spatial Data Analysis with R、《目击小汤山》等书籍。

  1. 苏建冲:运营商数据应用场景的尝试和探讨wh-008

苏建冲先生毕业于中国人民大学统计学院,使用R语言已逾4年。现就职于中国移动研究院从事资费研究工作。

演讲以流量滚存话题开始,一下子就激起了大家的兴趣。苏建冲先生以部分中高端用户的手机品牌数据为例,介绍了了不同品牌手机的市场占有率以及手机品牌忠诚度的问题。并以Gowalla网站数据为例分析了人类位置变动的规律性。其演讲内容贴近生活、简单易懂,同时又能展现深厚的R语言功底,令人印象深刻。

  1. 谢佳标:大数据的处理及建模技术——基于R语言实现wh-009

谢佳标是深圳创梦天地科技有限公司高级数据分析师,从事数据挖掘建模工作已有8年,主要利用R语言进行大数据的挖掘和可视化工作。

谢佳标先生从数据导入、分析建模和搭建数据平台三个方面介绍了R在大数据建模过程中的应用。利用RODBC包可以访问数据库,quantmod包可用于抓取网络上的金融数据,XML包可将网络数据直接抓取成数据框,RCurl包可实现HTTP的功能。演讲中谢佳标先生通过代码演示,向大家展示了用户细分模型平台界面,并现场操作绘制了金字塔图。

  1. 周翔:怦然心动的数据整理&描述魔法wh-010

周翔是中山大学数学与计算科学学院统计学本科生,R Square和华南统计研究中心成员。R语言和生物统计爱好者。

演讲从生活中的物品整理过度到数据整理,从raw data到well-done data。周翔结合自己学习R语言的经验,以电视节目收视率的数据为例,向大家介绍了数据清洗、整理、描述的全过程,并展示了自己写的代码。最后,周翔鼓励R语言初学者一定要自己动手去试一试,把R“try”出来。

  1. 闭幕致辞wh-011

林祯舜老师在会议最后进行了闭幕致辞。“学R不思则罔,思R不学则殆”,重要的事情要说三遍。林祯舜老师鼓励在场的学生,学习R语言一定要多动手,多思考,而不能总是copy-paste,做代码和模型的搬运工。从做中学,在学中思,这是一个没有人能替代的过程。

资源下载

经演讲者同意,以下是所有愿意共享的演讲材料(资料下载)。

谢军:当R真的遇到了大数据

李舰:R与自动化报告

肖凯:基于OpenCPU的R模型部署

张兵:基于R软件的传染病监测系统数据可视化及分析平台搭建

谢佳标:基于R语言的大数据的处理及建模技术

苏建冲:运营商数据应用场景的尝试和探讨

周翔:怦然心动的数据整理&描述魔法

感想和建议

R语言会议给来自社会各界的useR提供了一个交流学习的平台,一天的会议,时间不长,却足以让我们收获很多。以下是部分参会者的参会感想:

湖北经济学院统计学院老师:

R语言会议,让我收获满满,相信我的学生们收获更多。确实,跟更加优秀的人交流,会让自己进步更快。听了数据科学家们的演讲,给了我一些灵感,也让我这个统计专业的老师反思,该如何教学生。R社区是个智慧友好的大家庭,希望我和我的学生们好好努力,可以为R社区贡献力量。

湖北经济学院统计学院大三学生:

在R语言会议中,给我触动最大的就是李舰老师关于R与自动化报告这个演讲,我们平时做的数据分析结果在整合成文档的时候,很费时间,再如果数据出一点点错误,又得重新做一遍,按照李老师所说,在R中用程序实现,很简洁明了,也不用重做,自动更新功能简直不能更赞。总之在会议中长了很多见识,也学到了很多知识。

R语言会议第一次在武汉举办,会议的顺利进行离不开很多人的努力,前几届会议的经验给了我们极大的帮助,老师们的悉心指导更是让我们获益匪浅。在此,真诚地感谢筹备会议的老师、同学以及来自业界的朋友们,谢谢你们。相信通过大家的努力,R语言会议会越办越好。

 

 

组织委员会:

李巧玲(主席)  石唯炜(副主席)  严 红(秘书长)

唐章燕          吴蕊清            伍信怡

褚怡凡          余华君            孙依文

王书轩          郭建伟            陈青林

协办组织委员会:

张志刚  湖北经济学院统计学院副院长

葛建辉  上海辰智商务信息咨询有限公司总裁

胡意顺  武汉辰智商务信息咨询有限公司总经理

李  舰  堡力山集团副总

魏太云  统计之都理事会主席

张耀峰  湖北数据与分析中心主任wh-012

 

 

 

赞助单位

优酷土豆股份有限公司wh-013

辰智商务信息咨询有限公司wh-014

 

全体参会人员信息统计

据统计,此次会议的参会人员有300余人,参会率约为60.38%。其中男性与女性比例约为4:5,学生与在职人员比例约为4:1,年龄在20-30岁之间的参会者占约73%。汇总参会者得知会议的方式可知,有近一半的参会者是通过朋友得知此次会议的,这更加体现了R语言的学习是一个相互交流,相互分享的过程。

 

 

 

参会人员性别比例wh-015

参会人员年龄分布wh-016

 

 

 

参会人员学生与在职比例wh-017

参会人员得知会议的方式wh-018

参会单位

全体参会者所在单位汇总如下。

高校及研究所:

北京大学、北京工业大学、北京物资学院、复旦大学、同济大学

厦门大学、西南大学、湖南大学、湖南农业大学、南京医科大学、东南大学、武汉大学、中南财经政法大学、华中师范大学、华中农业大学、武汉理工大学、湖北经济学院、湖北大学、华中科技大学、武汉科技大学、中国地质大学(武汉)、湖北中医药大学、海军工程大学、华中师范大学湖北经济与社会发展研究院、湖北数据与分析中心、湖北省疾病预防控制中心、辉瑞(中国)研发中心

企业及事业单位:

上海海高通信发展有限公司、1号店、、通联支付网络服务股份有限公司、湖北电信客服中心、湖北省电信公司、武汉英泰斯特电子技术公司、武汉资信、迈德高武汉医学数据信息有限公司、武汉金港彩印、荆州市安全生产监督管理局、中国中车株洲电力机车研究所有限公司、数明科技、武昌船舶重工集团有限公司、武汉菲沙基因信息有限公司、湖南华夏标准信用管理有限公司、华润河南医药有限公司

广州思迈特软件有限公司、南方航空、易接SDK、国际商业机器(深圳)有限公司、腾讯科技(深圳)有限公司、金豆科技、方正国际软件集团



关于COS编辑部

本账户为COS编辑部公共账户,目前由朱雪宁任主编,由王小宁和张心雨担任副总编,编辑有:蔡占锐,常象宇,邓金涛,邓一硕,丁维悦,范超,冯璟烁,冯凌秉,高涛,郎大为,吕翔,彭晨昱,邱怡轩,施涛,覃文锋,王健桥,魏太云,吴佳萍,谢益辉,熊熹,杨舒仪,于嘉傲,主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。

发表评论

电子邮件地址不会被公开。 必填项已用*标注