R与并行计算

作者简介

赵鹏,世界知名IT企业性能分析师。在包括多核、分布式以及GPU通用计算方面具有丰富的研究和实践经验,善于帮助客户解决性能问题以及提供并行化方案。

R语言爱好者,业余时间创建了ParallelR网站,www.parallelr.com,以此来分享R和并行计算相关内容。

文章摘要

本文首先介绍了并行计算的基本概念,然后简要阐述了R和并行计算的关系。之后作者从R用户的使用角度讨论了隐式和显示两种并行计算模式,并给出了相应的案例。隐式并行计算模式不仅提供了简单清晰的使用方法,而且很好的隐藏了并行计算的实现细节。因此用户可以专注于问题本身。显示并行计算模式则更加灵活多样,用户可以按照自己的实际问题来选择数据分解,内存管理和计算任务分配的方式。最后,作者探讨了现阶段R并行化的挑战以及未来的发展。

继续阅读R与并行计算

第九届中国R语言会议(厦门)会议通知

第九届中国R语言会议(厦门)

暨厦门大学数据科学与量化金融研讨会

一、会议概况

随着现代科学技术尤其是计算机、网络信息、生物工程等技术的快速发展,海量数据在自然科学和社会科学各个领域涌现出来,并以前所未有的速度产生和积累。这些海量数据涵盖范围广,变化速度快,存在形式复杂多样,同时也蕴含了丰富的价值。如何分析这些数据并提取价值成为当今社会和学术界的热门话题。数据科学有机地结合了统计学、计量经济学、计算机科学等学科优势,成为了认识客观世界数量规律的有力工具,被广泛地应用到经济学、金融学、医学、生物遗传、互联网科技、工程技术、环境、社会学等诸多领域。而R语言由于其在数据处理、统计分析绘图语言和操作环境方面的便捷性,在这个过程中得到了学术界和业界的广泛认可。

中国R语言会议正是为响应这个时代发展潮流,由统计之都发起,国内高校联合主办,以推广数据科学在中国的发展为目的的会议。自2008年在中国人民大学举办第一届起,中国R语言会议已先后在全国七个城市举办,前后报名参与人数已过万人。会议内容覆盖数据科学在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域,在高校和业界均形成了深远影响。

第九届中国R语言会议(厦门)暨厦门大学数据科学与量化金融研讨会由厦门大学经济学院、王亚南经济研究院与统计之都联合主办,厦门大学经济学院统计系、计量经济学教育部重点实验室(厦门大学)、厦门大学数据科学与决策咨询中心、WISE R Club承办。会议以数据科学和量化金融作为主要议题,但不限于这两个主题,诚邀学界和业界精英同台演讲交流,来进一步推广数据科学以及量化金融在中国的发展。China-R-Logo-trans

二、会议时间

2016年11月12-13日

三、会议地点

厦门大学科学艺术中心,厦门大学经济楼

四、会议主题

大数据技术、互联网金融、量化金融、图像处理、数据挖掘、生物信息、概率统         计、社交网络、医疗健康、数据分析软件等。

五、会议赞助

本会议目前非常欢迎任何企业、高校、个人的多种形式赞助,作为回馈,会议手册上会印制赞助商介绍,同时为赞助商提供招聘专场和报告演讲机会。会议具体情况请和会务组讨论商定,请联系lingbing.feng@cos.name。

六、演讲者报名

大会除了邀请嘉宾演讲之外,也欢迎报名演讲。主题包括但不限于金融与金融大数据、统计与机器学习、业界应用与数据可视化、自然语言与软件工具等。欢迎有兴趣的演讲者将个人简介、二寸照片、演讲题目、演讲摘要(200字左右)邮件发送至chinar-2016-xm@cos.name。大会组委会将对报名的演讲择优录用。演讲者报名截止日期为2016年11月5日

七、参会者报名

在线报名尚未开放,敬请期待。请登陆会议活动主页http://china-r.org/xiamen2016/index.html或关注统计之都微信公众号获取未来更多信息。本次会议不收取任何费用,交通、食宿等花费自理。为会议参会者(以在线报名结果为依据)免费提供会议材料,请报名的朋友们尽量前往参会。

八、主办方

厦门大学经济学院

王亚南经济研究院

统计之都

九、承办方

厦门大学经济学院统计系

计量经济学教育部重点实验室(厦门大学)

厦门大学数据科学与决策咨询中心

WISE R Club

十、主办方及协办方介绍
厦门大学经济学院

厦门大学经济学院渊源于1921年建校初期的商学部,经过90多个春秋的锤炼与洗礼,经济学科已经成为厦门大学最重要的优势学科和支柱学科之一。 1981年9月15日经教育部批准,原厦门大学经济系升格为厦门大学经济学院,1982年5月24日举行成立大会,这是中国大陆重点综合性大学建立的第一所经济学院。经济学院是厦门大学规模最大的学院。现有经济学系、统计系、财政系、金融系、国际经济与贸易系和经济研究所、宏观经济研究中心、中国能源经济研究中心等8个教学科研单位,并设有教学实验中心。拥有教育部首个文理交叉“计量经济学重点实验室”,1个教育部人文社会科学重点研究基地、1个“计量经济理论与应用创新引智基地”(简称“111 计划”)、1个国家级实验教学示范中心,1个福建省“2011协同创新中心”,1个福建省统计科学重点实验室,3个福建省人文社科重点研究基地,理论经济学、应用经济学和统计学3个一级学科博士授权点、3个博士后流动站;设有11个本科专业,30个硕士专业,28个博士专业;现有专任教师177名,其中教授62名、副教授69名,博士生导师61名,博士后研究人员17人;在校学生3711人,其中博士生229人、硕士生1081人、本科生2401人。

王亚南经济研究院(WISE

WISE是一个实体性的教育科研机构,成立于2005年,下设计量经济学研究中心、金融经济学研究中心等11个科研机构。同时,WISE重视学科交叉,依托WISE成功申报立项了“计量经济学”教育部重点实验室(厦门大学)和福建省统计科学重点实验室等两个独立研究机构,在文理交叉研究方面取得了显著的成效。WISE从海外招聘了近50名全职教师,组成一支具有国际视野和国际竞争力的人才团队;强调深厚的理论基础和现代数理分析方法,本、硕、博课程设置和教学难度与美国一流研究型大学完全接轨,全部课程使用美国一流研究型大学通用的教材;注重对外学术交流,共举办高端国际学术会议超过80场;与国外多个知名高校建立了实质性的合作关系,在教师合作研究、学生互换、共同召开国际会议等方面开展广泛的合作。WISE力争在不太长的时间内,成为亚太地区和中国一流的、与国际接轨的现代经济学教育和研究机构,使厦门大学经济学科在一些主要领域,即计量经济学、金融学、劳动经济学、宏观经济学、统计学等研究在国内处于顶尖地位,在国外有一定的影响;成为国家和地方社会经济发展重要的智囊团、思想库和高级教育培训与咨询机构。

统计之都

十年磨一剑,破鞘天下惊。R语言会议发展壮大的同时,统计之都也已走过十年风雨。十年间,统计之都服务着广大统计学爱好者,推动着R语言在中国的传播发展,见证着数据科学时代的逐渐崛起。迄今,统计之都已先后出版八本图书,举行海内外沙龙五十余期;未来,我们将再接再厉,继续为国内统计学和数据科学发展贡献自己的力量。

厦门大学经济学院统计系

厦门大学统计系由著名经济学家王亚南先生等创办于1950年,经过几代人的艰辛创业和不懈努力,现已发展成为国内具有重要影响力的统计学科教学、科研和人才培养基地。统计学科分别于1987年、2001年和2007年连续三次被国家教委和教育部评为国家级重点学科。2012年,教育部学位与研究生教育发展中心对具有研究生培养和学位授予资格的一级学科进行整体水平评估,厦门大学统计学专业名列全国第三。厦门大学统计系拥有一支结构合理、梯队健全、实力雄厚的教师队伍。著名统计学家、经济学家钱伯海教授和黄良文教授等是厦大统计系的老一辈学术带头人,曾经在国内统计和经济学界享有崇高盛誉。而今,厦大统计学科在发扬原有经济统计学科优势的基础上,催生学科变革,引入现代统计学科教育和研究范式,推动数理统计及相关领域的发展,鼓励交叉学科以形成学科间优势互补。同时,厦大统计系大力引进具有国际竞争力的师资队伍,从科研实力、 人才培养和国际合作等方面提升统计学在国内外的影响力。60多年来,厦门大学统计系已为国家的发展和建设培养、输送了众多优秀人才。

“计量经济学”教育部重点实验室(厦门大学)

“计量经济学”教育部重点实验室(厦门大学)是在2009年首批获批立项的文理学科交叉的经济学科重点实验室。实验室定位于建立一个以计量经济学为核心,并辐射到与之相关的统计学、数学、实验心理学、生物学、医学统计学、物理学等其他学科领域,凸显文理交叉特色,注重理论与实证研究相结合,在国内领先、国际上有一定影响、开放性的计量经济学理论与应用重点实验室,旨在为不同学科、不同领域的海内外学者提供交流和合作的平台,以促进他们在自身研究领域的横向拓宽与纵向发展。 借助这一开放式的实验平台,国内相关学科还可加强与国际同行的对话,开展多方位、多层次的国际合作和交流,包括召开国际学术会议、举办面向青年教师和研究生的计量经济学暑期学校、短期学者互访和合作研究、合作培养研究生等,提升学科研究的前沿性和国际知名度。实验室将成为我国计量经济学对外交流的重要平台。

厦门大学数据科学与决策咨询中心

2016年,厦门大学经济学科、统计学科和信息科学与技术学科共同申请组建“数据科学与决策咨询中心”。该中心依托厦门大学在计量经济学、统计学、金融学、信息科学与技术等领域的优势力量,打造成一个融合科研、教学及社会服务相结合的综合性平台。中心主要的研究特色是学科交叉,秉着“数据驱动价值”的宗旨,利用多学科的交叉优势,研究目前热门的数据科学建模理论和实际应用问题。同时,在社会服务上,能切实做好“产学研”相结合,获取企事业单位委托的横向课题,做好与数据相关的咨询服务,让业界享受到数据分析带来的价值。该中心的成立也正好契合大数据时代的发展、满足社会企业的需求,培养在数据科学领域具有核心竞争力的复合型人才。

WISE R Club

WISE R Club是由厦门大学王亚南经济研究院和经济学院对于数据科学和R语言感兴趣的同学于2013年自发组建而成的学习分享平台和学生组织。WISE R Club通过学生亲自授课、小组讨论、资源共享等方式来提升同学们对于数据科学软件(R、Python)的掌握和实际数据分析能力。

十一、联系方式

新浪微博:@统计之都

微信公众号:统计之都

会议联系邮箱:chinar-2016-xm@cos.name

为什么我不是R方的粉丝

本文翻译自 John Myles White 的博客 Why I’m Not a Fan of R-Squared。翻译工作已经获得作者授权同意。

本文大意

人们通常喜欢用 $R^2$ 作为评判模型拟合好坏的标准。与 MSE MAD 不同,$R^2$ 不只是模型误差的函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,$R^2$ 回答的是这样一个问题:“我的模型是否比一个常数模型更好?”,然而我们通常想要回答的是另一个完全不同的问题:“我的模型是否比真实的模型更差?

通过一些人为构造的例子我们可以很容易发现,对这两个问题的回答是不可互换的。我们可以构造一个这样的例子,其中我们的模型并不比常数模型好多少,但同时它也并不比真实的模型差多少。同样,我们也可以构造出另一个例子,使得我们的模型远比常数模型要好,但也远比真实模型要差。

与所有的模型比较方法一样,$R^2$ 不单是被比较模型的函数,它也是观测数据的函数。几乎对于所有的模型,都存在一个数据集,使得常数模型与真实模型之间是无法区分开的。具体来说,当使用一个模型区分效能很低的数据集时,$R^2$ 可以任意地向零趋近——即使我们对真实模型计算 $R^2$ 也是如此。因此,我们必须始终记住,$R^2$ 并不能告诉我们模型是否是对真实模型的一个良好近似:$R^2$ 只告诉我们,我们的模型在当前的数据下是否远比一个常数模型要好。 继续阅读为什么我不是R方的粉丝

用交互式图形探索一个五百年前的脑洞

按惯例先跑几段火车,赶时间的请直接从下面油画处开读。我很少看电影,欠的稿子都写不完还看毛线电影,不过前段时间《大鱼海棠》的精美海报画面还是吸引了我的注意力(又是从涛妹的票圈看到的),深为赞叹现在国内的动画制作技术。然而过了几天,好像评论的风向就变了。可惜了情怀这个词,现在也成了为人不齿的陈词滥调了:情怀,情你个锤子的怀,你才情怀,你全家都情怀。遥想当年,萌主(周扬)在明德楼地下咖啡厅的小房间里给我们展示 R/ECharts/Shiny 的时候,第一次提到情怀一词,小板凳上的我们都感受到了内心的一团火。“厉害啊!”萌主洋洋自得。

据说《大鱼海棠》可惜在用了辣么精良的画面,却愣是没讲好一个故事(重申一遍:我没看,只是据说);相比之下,人家徐克老爷子二十年前用简陋的技术却做出动画片《小倩》,同样是用中国传统故事素材,但比《大鱼海棠》不知道高到哪里去了。

“要来找我哦,我家就在北村,门口有棵好大好大的桃花树,记得一定要来找我哦!”

那我们就来谈谈讲故事的事。在统计之都十周年感言中我曾经提到过“精致的脑洞”,今天我就给大家解说一个五百年前的脑洞,这个脑洞是我压箱底的货,一般人我不告诉他,我第一次讲它是在我的博士论文答辩会上,后来便很少提它了。讲这个洞有两个目的,一是谈谈我对讲故事本身的一些想法(讲故事本不是我擅长的,但这个洞很适合讲故事),二是演示一下交互式图形的基本概念。 继续阅读用交互式图形探索一个五百年前的脑洞

第九届中国R语言会议(杭州)

中国R语言会议是由统计之都发起,并同国内高校共同举办的R语言与数据科学会议。本次中国R语言会议(杭州)将由统计之都与浙江财经大学联合主办,浙江财经大学数据科学学院承办。中国R语言会议再次走进中国电子商务之都、长江三角洲中心城市、享有“人间天堂”美誉的魅力之都——杭州,愿与更多的数据爱好者与研究者探讨数据科学,共同进步提高!中国R语言会议,欢迎各位的到来!

自2008年在中国人民大学举办第一届中国R语言会议起,到2016年中国R语言会议已经成功地走过了第九年,先后在全国七个城市举办,影响日渐扩大,前后报名参与人数已过万人。会议内容覆盖数据科学及R语言在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域。十年磨一剑,破鞘天下惊。在R语言会议发展壮大的同时,统计之都也已走过十年风雨。十年间,统计之都服务着广大统计学爱好者,推动着R语言在中国的传播和发展,见证着数据科学时代的逐渐崛起。迄今为止,统计之都已先后出版八本R语言相关图书,举行五十余期海内外沙龙;未来,我们将再接再厉,继续为国内统计学和数据科学的发展贡献自己的力量。2

继续阅读第九届中国R语言会议(杭州)