分类目录归档:推荐文章

编辑推荐文章

COS访谈第23期:尹建鑫老师

【COS编辑者按】受访者:尹建鑫      采访者:王小宁     校对:王佳    

尹建鑫       中国人民大学副教授,2009年在北京大学获得博士学位。2009年至2011年在美国宾夕法尼亚大学医学院生物统计系做博士后研究。2011年8月回国到中国人民大学任教。从事高维变量选择、图模型估计、结构学习算法、自适应实验设计、非参数统计等方面的研究。研究成果发表在国际知名统计杂志上(Annals of Applied Statistics, Journal ofMultivariate Analysis,Statistica Sinica)及Journal of Machine Learning Research的W&CP系列中。曾多次参加国际、国内学术会议,做演讲、邀请报告。并曾作为参赛队代表获因果与预测国际挑战赛“最佳整体贡献奖”。目前主持一项国家自然科学基金青年项目、一项教育部博士点基金项目。2015年获教育部第七届高等学校科学研究优秀成果奖(人文社会科学)统计学三等奖

继续阅读COS访谈第23期:尹建鑫老师

COS访谈第22期:李丰老师

【COS编辑者按】受访者:李丰      采访者:王小宁 张心雨      审稿人:成慧敏    

          李丰,博士, 中央财经大学统计与数学学院,副院长,硕士研究生导师, 主要研究方向为大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法以及多元模型。现任北京大数据协会理事,中国统计教育学会高等教育分会副秘书长,曾任2014 年金融工程与风险管理国际研讨会执行秘书。李丰老师是多个国家项目的项目负责人及主要参加人,曾获得The 2014 Cramér Prize等重要奖项。著有《大数据分布式计算与案例》等书籍。 继续阅读COS访谈第22期:李丰老师

R与并行计算

作者简介

赵鹏,世界知名IT企业性能分析师。在包括多核、分布式以及GPU通用计算方面具有丰富的研究和实践经验,善于帮助客户解决性能问题以及提供并行化方案。

R语言爱好者,业余时间创建了ParallelR网站,www.parallelr.com,以此来分享R和并行计算相关内容。

文章摘要

本文首先介绍了并行计算的基本概念,然后简要阐述了R和并行计算的关系。之后作者从R用户的使用角度讨论了隐式和显示两种并行计算模式,并给出了相应的案例。隐式并行计算模式不仅提供了简单清晰的使用方法,而且很好的隐藏了并行计算的实现细节。因此用户可以专注于问题本身。显示并行计算模式则更加灵活多样,用户可以按照自己的实际问题来选择数据分解,内存管理和计算任务分配的方式。最后,作者探讨了现阶段R并行化的挑战以及未来的发展。

继续阅读R与并行计算

为什么我不是R方的粉丝

本文翻译自 John Myles White 的博客 Why I’m Not a Fan of R-Squared。翻译工作已经获得作者授权同意。

本文大意

人们通常喜欢用 $R^2$ 作为评判模型拟合好坏的标准。与 MSE MAD 不同,$R^2$ 不只是模型误差的函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,$R^2$ 回答的是这样一个问题:“我的模型是否比一个常数模型更好?”,然而我们通常想要回答的是另一个完全不同的问题:“我的模型是否比真实的模型更差?

通过一些人为构造的例子我们可以很容易发现,对这两个问题的回答是不可互换的。我们可以构造一个这样的例子,其中我们的模型并不比常数模型好多少,但同时它也并不比真实的模型差多少。同样,我们也可以构造出另一个例子,使得我们的模型远比常数模型要好,但也远比真实模型要差。

与所有的模型比较方法一样,$R^2$ 不单是被比较模型的函数,它也是观测数据的函数。几乎对于所有的模型,都存在一个数据集,使得常数模型与真实模型之间是无法区分开的。具体来说,当使用一个模型区分效能很低的数据集时,$R^2$ 可以任意地向零趋近——即使我们对真实模型计算 $R^2$ 也是如此。因此,我们必须始终记住,$R^2$ 并不能告诉我们模型是否是对真实模型的一个良好近似:$R^2$ 只告诉我们,我们的模型在当前的数据下是否远比一个常数模型要好。 继续阅读为什么我不是R方的粉丝