第七届中国R语言会议(广州)纪要【含演讲资料】

本文作者:江彩霞,中山大学数学与计算科学学院统计学专业研究生二年级

第七届中国R语言会议(广州会场)于2014年11月15日在中山大学南校区网络中心讲学厅成功召开,由华南统计科学研究中心、中山大学数学与计算科学学院、统计之都共同筹办。参会者齐聚一堂,上午就R语言在互联网金融、数据科学、GIS技术、数据分析协作平台以及量化投资等方面中的应用进行了深入的探讨,下午对基于R的统计分析软件、Topic Modeling、R对非结构化数据的处理以及R在游戏等行业的一体化应用等内容进行了深刻的交流。会后,参会者们自发合影留念,共同庆祝中国R语言会议首次在华南地区顺利举行。

会议概况

本次会议报名分三个阶段,报名情况非常火爆,报名人数超过900人,约有 500多名参会者前来参会,分别来自一百六十多家单位,包括四十多家高校与研究机构和近一百二十家企事业单位。参会人员及单位汇总详见会议纪要参会人员与单位部分。

会议内容

本次会议交流的主题涵盖了R语言在互联网、统计、金融和生物技术等方面应用的最新进展,共包含12场特邀报告,其中上午5场,下午7场。会场现场反响热烈,座无虚席,众多背景各异、行业不同的人以R软件为纽带,共享了一场关于R语言和统计分析的盛会。

1

会议的流程和主要内容摘录如下。

吴喜之教授会议致辞

2

吴喜之教授是统计学界的前辈,在应用、推广R以及相关统计知识方面属于中国的开拓者。吴老师的欢迎致辞引人入胜,带领大家一起回忆了往昔R语言会议历程,令我们不禁更加珍惜走到今天的中国R会议。

李英浩:互联网金融大数据与风险

3

李英浩先生是美国佐治亚大学应用经济学硕士,美国康乃尔大学MBA,现任融360首席风险官。

互联网金融与传统金融业务的风险控制有相同之处,更有创新内容,尤其在大数据的应用上,互联网金融的风险控制一直走在传统金融的前面。李英浩先生引用北京天气的预测示例,生动的向我们介绍了互联网金融的最前沿技术和发展情况。相信通过李英浩先生的详细讲解,大家对互联网金融行业及其与统计分析之间的关系有了更清晰的认识。

李舰:数据科学中的R语言

4

李舰先生本科毕业于中国人民大学统计学院,研究生就读于北京大学软件与微电子学院,现任Mango Solutions中国区数据总监。

李舰先生的分享内容环环相扣,从分析数据科学与统计学、机器学习、计算机科学、数据挖掘等学科之间的区别和联系,进而对数据科学提出严谨定义,再到讨论数据科学与R语言的关联,让我们逐步了解了数据科学家这份“最性感的职业”。报告最后,李舰先生也提出了成为数据科学家需具备的一些技能和知识。在倾听精彩演讲的同时,我们坚定了成为数据科学家的决心,也不禁思考自己距离数据科学家还有多远。

葛建辉:基于GIS技术与R耘慧的渠道大数据解决方案

5

葛建辉先生是辰智咨询联合创始人,现担任辰智咨询总裁,拥有超过10年专业市场研究、管理咨询和商业地产策划经验,长期从事各种类型商业地产项目的研究咨询工作。

葛建辉先生向我们详细介绍了GIS技术,通过图层叠加的方式,有效关联每个门店的内部数据和外部数据,利用R进行底层数据的建模,再结合GIS平台进行可视化展示,可以帮助各类零售商和品牌商进行渠道的管理创新和智慧决策。葛建辉先生在演讲过程中展现出来的专业分析技能和创新思想,激发了参会人员的灵感,产生了更多的思维碰撞。

林祯舜:R-web -大型多人在线数据分析协作平台

6

林祯舜先生是中国人民大学统计学博士,先锋信息科技有限公司首席数据分析师。

数据转化为知识的过程中有三个重要的组成部分:数据、工具和人,林祯舜先生通过详解数据转化为知识的过程,形象的讲述了工具协作和弹性的重要性。R语言作为一门统计人常用的语言,却一直缺少一个友好的、智能的、全面的操作平台。基于这样的想法和设计理念,第一个基于R语言研发的数据分析云平台http://r-web.sysu.edu.cn/诞生了。林祯舜先生的报告,特别是平台演示环节,让现场所有人眼前一亮,纷纷惊叹该平台智能的引导性与全方位的实用性。

任坤:跳出数据框,拥抱非结构化数据

7

任坤先生是厦门大学王亚南经济研究院金融硕士研究生,研究兴趣为计算统计与量化交易,是R开源社区的活跃开发者,管道操作符pipeR、非关系数据处理rlist等扩展包以及learnR教程的作者。

R语言中的数据框是一种最常使用和最易操作的结构化数据类型,然而近年来非结构化数据处理逐渐获得越来越多的关注,任坤先生开发的rlist扩展包为我们打开了这扇窗。rlist扩展包充分利用了R语言中list对象的特性,定义了一整套函数来帮助用户灵活快速地按要求处理各种非结构化数据,同时结合pipeR包中管道操作符的使用,使R程序更加具有可读性,应用更加人性化。这里引用任坤先生在报告中所说的一句话,“此举一个非常重要的意义在于可以有效延长编程人员的寿命”。

赵学敏:Topic Modeling工程实践

8

赵学敏先生于2011年毕业于北京大学智能科学系,硕士研究方向是模式识别与图像处理,毕业后加入腾讯,作为主要开发人员参与和负责了大规模隐含语义训练系统Peacock的开发及应用、大规模层次文本分类器、Look Alike定向、广告索引系统的开发以及广告文本相关性优化等项目。

赵学敏先生介绍了在自然语言处理、信息检索、推荐系统等方面都有非常重要应用的Topic Models,着重讲述了LDA及其变种在工程实践中需要注意的种种问题,包括算法包正确性验证、加速采样、超参数优化、大规模训练系统、在线推断、实际应用等。严谨的分析思路与专业的分析方法令人膜拜,更多精彩内容,请猛戳讲义链接。

王斌会:基于R语言的统计分析系统

9

王斌会教授是暨南大学管理学院统计学专业博士生导师,统计学、数量经济学及应用统计学专业硕士生导师,从事数学、统计学及管理学教学和科研工作20余年,是广东省“千百十”培养对象。

王斌会教授从热词“大数据”出发,简要介绍了处理大数据的常用工具,随后提出由团队开发的一套基于R语言的统计分析系统Rstat。Rstat系统是一个带有中文说明的交互式统计软件,操作极其简单,尤其适用于只想进行统计分析而不需要研究和编写新算法的使用者。有了Rstat,妈妈再也不用担心我不会做统计分析了。

范建宁:R务正业之量化投资

10

范建宁先生是中国人民大学统计学院硕士研究生,原统计之都管理员以及第二、三、四届中国R语言会议组委会成员,现任茂源资本量化研究员。

范建宁先生从R语言金融量化研究日常用户的角度,分享了如何利用常见R函数与包对股票、期货等金融数据进行多角度统计分析和建模的一些想法,以期展现R在量化投资中的优越和不足。精彩的演讲内容引起了现场对量化投资感兴趣的参会人员的共鸣与热烈讨论。

关菁菁:投资属于你的编程语言组合

11

关菁菁女士是香港城市大学博士,研究方向为大规模复杂数据的建模方法,在统计模型和数据挖掘方面造诣颇深。

一个数据分析师的工作往往要经历从收集数据、整理数据、分析数据到验证结果、展示结果等一系列流程,在这个流程的每一个环节中,不同的编程语言可能会体现出不同的编程优势,不同的使用者也会有不同的使用倾向。今天,她以一个R语言用户、统计学的学生以及编程人员的角度,借用金融投资组合的概念,分享了她在这个过程中对编程语言选择的一些心得体会。在选择编程语言方面纠结过或纠结中的你,应该收获颇丰吧。

尤晓斌:用数据科学优化人口健康模式

12

尤晓斌先生曾就读于新加坡国立大学统计系和厦门大学统计系,现任新加坡国立医疗集团数据分析员。

现实问题的出现促使数据分析师们去探索数据科学的具体应用。新加坡医疗系统正面临人口老龄化的挑战,尤晓斌先生给我们分享了在面对这样一个现实问题时,如何应用数据科学去解决问题,以及R语言在整个过程中所扮演的角色。R语言在这样一个具体环境、具体问题上的实际应用,为我们提供了一套可参考的探索数据科学的思路,也引导我们思考R语言在更多环境和更多问题中的应用。

王珺伟:大数据分析中R的一体化应用

13

王珺伟先生经历丰富,2009年创办装饰设计公司,2010年参与ATM智能选址系统研究,2014年承担CRM系统数据挖掘模型应用,现任SAS数据挖掘讲师。

王珺伟先生给大家介绍了R在四个方向的应用,分别为大数据信息抓取(代表包XML、RCurl、 Rweibo等)、大数据处理(代表rmr2、rJava、rhdfs等)、文本挖掘(代表包tm、Rwordseg、scales等)、交互式开发(代表包shiny等)。王珺伟先生的演讲内容全面、精炼,为对此感兴趣的参会者们提供了更广泛的思考空间。

谢佳标:RCurl爬虫和Shiny包在游戏行业的应用

14

谢佳标先生是深圳市东方博雅科技有限公司数据分析师,从事数据分析工作7年。曾经从事过咨询、电商、电购、电力行业,了解不同领域的数据特点,目前主要用R语言做数据分析和建模研究工作。

谢佳标先生在报告中介绍了利用RCurl爬虫技术抓取公司内部用户玩家的基本信息和玩牌行为数据、利用正则表达式对信息进行处理、利用shiny包搭建用户留存的数据分析平台,将数据分析和建模结果直接做成App,方便运营同事实现自助式数据挖掘等一系列应用过程。报告中谢佳标先生通过现成源码的解读与演示,令参会者们迅速理解报告内容,更深刻的体会R的应用。更多详细内容,等你来戳。

资料下载

演讲列表如下,已经通过嘉宾授权,允许公开的幻灯片请移步这里下载

  • 李英浩:互联网金融大数据与风险
  • 李舰:数据科学中的R语言
  • 葛建辉:基于GIS技术与R耘慧的渠道大数据解决方案
  • 林祯舜:R-web -大型多人在线数据分析协作平台
  • 范建宁:R务正业之量化投资
  • 王斌会:基于R语言的统计分析系统
  • 赵学敏:Topic Modeling工程实践
  • 任坤:跳出数据框,拥抱非结构化数据
  • 关菁菁:投资属于你的编程语言组合
  • 尤晓斌:用数据科学优化人口健康模式
  • 王珺伟:大数据分析中R的一体化应用
  • 谢佳标:RCurl爬虫和Shiny包在游戏行业的应用

感想与建议

15

第七届R语言会在2015年11月15日晚六点顺利闭幕。会议虽只有短短一天时间,却足以结识来自四面八方的志同道合的useR(R语言的用户),极大深化与会各界人士之间的交流和讨论。无论是学生还是从业者,都收获颇多。

下面是来自部分参会人员关于此次R语言会议的一些感想与领会,让我们一起分享:

中山大学数学与计算科学学院的大四学生:

印象深刻的有任坤先生的演讲,介绍了自己写的超多包,虽然是硕士生,但是他能够自己研究钻研那么多那么深,我很佩服!还有关菁菁师姐的演讲,分享了她学习统计各种软件和应用的心路历程,我觉得对自己以后在统计方面如何研究有了一个方向~

中山大学管理学院的研二学生:

本次R语言会议,第一次报名,会场名额只有400个,我是早上在微信上看到相关消息,知道第一次在广州举办R语言会议,就很快收藏准备晚上报名,但是晚上报名时候,却发现名额已经满了,足以说明华南地区对于R语言会议的热情。但是没有门票入场,当时差点就放弃了去参加会议的想法。后面自己每天都关注R语言会议主页,没想到有一天突然又可以报名了,原来是入场人数增加到600人,我马上报名了。这下可以名正言顺去参加会议了。

会议当天早早就来到会场,因为是在自己学校,所以有点参加讲座的味道,但是现场排起了长长的队伍,有部分没有报名成功但是也想参加会议的R语言爱好者也来到现场,给这样的盛会留下了太多热爱的身影。

会议内容没有让我们失望,早上有我比较感兴趣的R语言与互联网金融,还有R语言与GIS的结合;下午同样有我喜欢的R语言与量化投资。最感兴趣的演讲内容是R语言用于Topic Modeling,用于语义分析,从语义推断分析理论和实际例子运用方面给我们做了完整的展示,使得观众能够明白先验概率的语义分布,再使用后验概率推断相应收索词的语义,实现有针对性的产品推荐。这给我们完整展示了互联网公司进行语义推断的过程,还有产品推荐的整体思路,使我学到了很多。

最后,非常高兴能够和这么多的R语言爱好者齐聚广州,齐聚中山大学,一起讨论学习R语言的理论与应用。同时也非常期待能够参加下一次在广州举行的R语言会议,也建议R语言会议能够在深圳举办相应的分会场,相信深圳会有更多的业界人士参与到R语言会议中来。也期待自己到时候能够上台为R语言的爱好者们分享自己在R语言空间统计分析方面的心得。

中国R语言会议此次在广州举行实属不易,万事开头难,这中间有着很多人的付出和心血。在此,由衷感谢华南统计科学研究中心及来自业界众多朋友的大力支持,同时感谢来自中山大学和统计之都的年轻志愿者们。没有你们的兢兢业业,任劳任怨,会议是难以成功组织起来的。

组织委员会:

  • 邓一硕  统计之都理事委员,COS沙龙联合发起人
  • 李  舰  Mango Solutions中国区数据总监
  • 林祯舜  先锋信息首席数据分析师
  • 王学钦  中山大学数学与计算科学学院教授、华南统计科学研究中心执行主任
  • 寇  强  中山大学华南统计科学研究中心
  • 谭海珠  中山大学华南统计科学研究中心

组织委员会主席:

  • 王学钦  中山大学数学与计算科学学院教授、华南统计科学研究中心执行主任

地方组织委员会:

  • 程月华  中山大学数学与计算科学学院副院长
  • 蔡敬衡  中山大学数学与计算科学学院统计系副主任
  • 尤  娜  中山大学数学与计算科学学院副教授

地方组织委员会秘书:

  • 黄巩怡/李姣/刘成烽/吴炳培/张晔/朱珊   中山大学华南统计科学研究中心

可爱可敬的会议志愿者:

  • 葛文秀/江彩霞/李泳慧/马兴华/田媛/王瞳旻/徐晗潇/杨展思/张波漾/张强   中山大学华南统计科学研究中心

 

R语言会议官方网站:http://china-r.org

如果您对于中国R语言会议还有任何感想、意见或建议,欢迎您在本页面、统计之都人人网页面或统计之都新浪微博留言,我们会尽力在今后对会议质量进行进一步的改善。

主办单位

赞助单位

18

 

参会人员与单位

参会人员

据统计,会议当天参会人员超过500人,年龄在20-30之间的约达80%,其中男性与女性比例和学生与在职人员比例均约为3:2。由参会人员报名时填写信息所画的文字云显示,数据挖掘、数据分析、机器学习、生物信息、文本分析、医学统计、金融等主题占了这个苹果的大部分,是参会人员最感兴趣的内容,与当天的演讲主题前后呼应。

全体参会人员信息统计情况如下。

参会人员性别比例

19

参会人员年龄分布

20

参会人员学生与在职比例

21

参会人员感兴趣的主题

22

参会单位

全体参会者所在单位汇总如下。

高校和研究所

安徽医科大学/北京理工大学珠海学院/北京师范大学/福州大学/工信部第五研究所/广东财经大学/广东工业大学/广东金融学院/广东水利水电学院/广东外语外贸大学/广东医学院医学系统生物学研究所/广州中医药大学/国防科学技术大学/国家海洋局第二海洋研究所/湖南大学/华大基因研究院/华南理工大学/华南农业大学/华南师范大学/华南先进光电子研究院/华中科技大学/华中农业大学/华中师范大学/暨南大学/江西理工大学/昆明理工大学/南方医科大学/厦门大学/深圳大学/温州大学/武汉大学/武汉工程大学/香港浸会大学/香港理工大学/香港中文大学/中国科学院大学/中国科学院大学华大教育中心/中国科学院寒区旱区环境与工程研究所/中国科学院南海海洋研究所/中国医科大学附属一院/中山大学

企业及事业单位

360度新媒体集团/ACTO/BGI/CCINN/CNGB/hpc/RYPE/TCM/Teradata/uc优视/vip唯品会/阿里巴巴/埃森哲/爱立信移动数据应用技术研究开发(广州)公司/百度/佰聆/宝洁公司/北京宝润兴业/北京大小汇丰商学院/北京浩瀚深度科技股份有限公司/北京浩瀚深度信息技术股份有限公司/卜蜂莲花/辰智咨询/从兴技术有限公司/东软集团/法律快车网/番禺中心医院/佛山市地方税务局/功典信息/广东大保龙/广东帝弘数据技术有限公司/广东国笔科技股份有限公司/广东俊特团贷网络信息服务股份有限公司/广东省妇幼保健院/广东省疾病预防控制中心/广东省中医药科学院/广东医学院/广东宜通世纪科技股份有限公司/广东移动/广东中医药科学院/广发银行信用卡中心/广州爱健生物科技有限公司/广州佰聆信息科技有限公司/广州凤鸣信息科技有限公司/广州格风服饰有限公司/广州好迪集团有限公司/广州虎鱼网络科技有限公司/广州金鹏科技信息系统有限公司/广州精点计算机有限公司/广州酷狗计算机技术有限公司/广州米谷科技优先公司/广州青椒/广州软件开发/广州绅都服装有限公司/广州市地税大企业局/广州市交通规划研究院/广州市久邦数码科技有限公司/广州市铭数教育咨询有限公司/广州市志贺化工有限公司/广州智慧城市研究院/广州中原/国科大-深圳华大基因研究院/韩后电子商务有限公司/汉高中国投资有限公司/恒大集团/互联网创业公司/华大基因/汇润集团/吉林艺术学院/京信通信/久邦数码/绿瘦/美的热水器/南海农商银行/融360/上海电机学院/上海计生所/深创投/深圳彩讯科技有限公司/深圳海雅缤纷城/深圳市彩讯科技有限公司广州分公司/深圳市瀚海基因/深圳市康拓普科技有限公司/深圳市康拓普信息技术有限公司/深圳市泰海网络服务有限公司/深圳市职业病防治院/生命人寿/实力媒体/顺德农商银行/顺丰速运/太平洋电脑信息咨询有限公司/太平洋网络/腾讯/网易游戏/网舟联合科技/微话/微众银行/香港云智数据服务有限公司/亚信科技(中国)有限公司/医院质量检测系统研究中心/宇信易诚科技有限公司/越秀金控集团有限公司/掌讯科技/中国电子科技集团/中国科学院华大教育中心/中国科学院深圳先进技术研究院/中国联合网络通信有限公司广东省分公司/中国南方航空/中国农业银行/中国平安/中国太平洋财产保险股份有限公司广州分公司/中国移动广州分公司/中国移动深圳有限公司/中山六院/中信银行本部/中信银行股份有限公司信用卡中心/珠海阿巴马资产管理有限公司



关于COS编辑部

本账户为COS编辑部公共账户,目前由朱雪宁任主编,由王小宁和张心雨担任副总编,编辑有:蔡占锐,常象宇,邓金涛,邓一硕,丁维悦,范超,冯璟烁,冯凌秉,高涛,郎大为,吕翔,彭晨昱,邱怡轩,施涛,覃文锋,王健桥,魏太云,吴佳萍,谢益辉,熊熹,杨舒仪,于嘉傲,主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。

第七届中国R语言会议(广州)纪要【含演讲资料】》有8个想法

  1. 广州的这个会给我的感觉就是技术相关的talk太少了, 基本都是各路人来打广告。。。建议以后可以收费办会,提高报告的质量,毕竟一天的时间是很值钱的,对广州这场挺失望的,以为会有蛮多的技术讨论,浪费了差旅费不说,还耽误了大量的时间听人打广告。。。

  2. 广告是多了点,按照王斌会老师的说法就是也不知道他们是怎么用R的。相比较而言还是北京用户大会技术氛围更好一些。找几乎去北京瞅瞅。

  3. 请教一下,李舰先生的ppt里提到一个“Danger zone”是什么意思?
    “使用 R 要学杨任不要学黄天化”又是什么意思?

      1. 李舰先生请来四川吧,我请你喝酒吃烧烤。。。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注