为什么我不是R方的粉丝

本文翻译自 John Myles White 的博客 Why I’m Not a Fan of R-Squared。翻译工作已经获得作者授权同意。

本文大意

人们通常喜欢用 $R^2$ 作为评判模型拟合好坏的标准。与 MSE MAD 不同,$R^2$ 不只是模型误差的函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,$R^2$ 回答的是这样一个问题:“我的模型是否比一个常数模型更好?”,然而我们通常想要回答的是另一个完全不同的问题:“我的模型是否比真实的模型更差?

通过一些人为构造的例子我们可以很容易发现,对这两个问题的回答是不可互换的。我们可以构造一个这样的例子,其中我们的模型并不比常数模型好多少,但同时它也并不比真实的模型差多少。同样,我们也可以构造出另一个例子,使得我们的模型远比常数模型要好,但也远比真实模型要差。

与所有的模型比较方法一样,$R^2$ 不单是被比较模型的函数,它也是观测数据的函数。几乎对于所有的模型,都存在一个数据集,使得常数模型与真实模型之间是无法区分开的。具体来说,当使用一个模型区分效能很低的数据集时,$R^2$ 可以任意地向零趋近——即使我们对真实模型计算 $R^2$ 也是如此。因此,我们必须始终记住,$R^2$ 并不能告诉我们模型是否是对真实模型的一个良好近似:$R^2$ 只告诉我们,我们的模型在当前的数据下是否远比一个常数模型要好。 继续阅读为什么我不是R方的粉丝

用交互式图形探索一个五百年前的脑洞

按惯例先跑几段火车,赶时间的请直接从下面油画处开读。我很少看电影,欠的稿子都写不完还看毛线电影,不过前段时间《大鱼海棠》的精美海报画面还是吸引了我的注意力(又是从涛妹的票圈看到的),深为赞叹现在国内的动画制作技术。然而过了几天,好像评论的风向就变了。可惜了情怀这个词,现在也成了为人不齿的陈词滥调了:情怀,情你个锤子的怀,你才情怀,你全家都情怀。遥想当年,萌主(周扬)在明德楼地下咖啡厅的小房间里给我们展示 R/ECharts/Shiny 的时候,第一次提到情怀一词,小板凳上的我们都感受到了内心的一团火。“厉害啊!”萌主洋洋自得。

据说《大鱼海棠》可惜在用了辣么精良的画面,却愣是没讲好一个故事(重申一遍:我没看,只是据说);相比之下,人家徐克老爷子二十年前用简陋的技术却做出动画片《小倩》,同样是用中国传统故事素材,但比《大鱼海棠》不知道高到哪里去了。

“要来找我哦,我家就在北村,门口有棵好大好大的桃花树,记得一定要来找我哦!”

那我们就来谈谈讲故事的事。在统计之都十周年感言中我曾经提到过“精致的脑洞”,今天我就给大家解说一个五百年前的脑洞,这个脑洞是我压箱底的货,一般人我不告诉他,我第一次讲它是在我的博士论文答辩会上,后来便很少提它了。讲这个洞有两个目的,一是谈谈我对讲故事本身的一些想法(讲故事本不是我擅长的,但这个洞很适合讲故事),二是演示一下交互式图形的基本概念。 继续阅读用交互式图形探索一个五百年前的脑洞

第九届中国R语言会议(杭州)

中国R语言会议是由统计之都发起,并同国内高校共同举办的R语言与数据科学会议。本次中国R语言会议(杭州)将由统计之都与浙江财经大学联合主办,浙江财经大学数据科学学院承办。中国R语言会议再次走进中国电子商务之都、长江三角洲中心城市、享有“人间天堂”美誉的魅力之都——杭州,愿与更多的数据爱好者与研究者探讨数据科学,共同进步提高!中国R语言会议,欢迎各位的到来!

自2008年在中国人民大学举办第一届中国R语言会议起,到2016年中国R语言会议已经成功地走过了第九年,先后在全国七个城市举办,影响日渐扩大,前后报名参与人数已过万人。会议内容覆盖数据科学及R语言在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域。十年磨一剑,破鞘天下惊。在R语言会议发展壮大的同时,统计之都也已走过十年风雨。十年间,统计之都服务着广大统计学爱好者,推动着R语言在中国的传播和发展,见证着数据科学时代的逐渐崛起。迄今为止,统计之都已先后出版八本R语言相关图书,举行五十余期海内外沙龙;未来,我们将再接再厉,继续为国内统计学和数据科学的发展贡献自己的力量。2

继续阅读第九届中国R语言会议(杭州)

可能是目前最好的词云解决方案wordcloud2

:广大的段子手朋友们,下次再用R做词云的时候,记得在wordcloud后面加个2
无论是install.packages(“wordcloud2”)
还是library(wordcloud2)
或者wordcloud2(data)
留下一个无法辩驳的理由,作为一个有情怀的语言,主函数的第一个变量不应该是data.frame么?

download

最近写了一个wordcloud2的R包。调用一个JS的库(wordcloud2.js)实现wordcloud。 与旧的wordcloud相比,新的wordcloud2 能更有效的利用词与词的间隔来插入数据,更可以根据图片或者文字来绘制定制化的词云。

install.packages("wordcloud2")
library(wordcloud)
library(wordcloud2)
wordcloud(demoFreq$word, demoFreq$freq)
wordcloud2(demoFreq)

1

由于使用了Rstudio出品的htmlwidgets框架,knitr和shiny也都支持。以下是wordcloud2包的一个基本介绍。

基本的函数有两个:

  1. wordcloud2: 提供基本的词云功能
  2. letterCloud: 使用选定的词绘制词云(就像刚才那个wordcloud2的图片)

为了文章的流畅性,详细的使用参数我就不细说了,可以去看下我留在CRAN的文档。下面会给大家介绍三种模式,按需选择。

  • 懒人模式:默认参数,顺便自己可以调一调颜色角度什么的;
  • 自定义模式:根据字符来生成词云;
  • 极客模式:根据输入的图片来生成同样形状的词云。

继续阅读可能是目前最好的词云解决方案wordcloud2

中药、西药及统计学

作者:李 舰
现任九峰移动医疗CTO,曾任 Mango Solutions 中国区数据总监。专注于数据科学在行业里的应用。擅长R语言的工程开发与分析建模,是 Rweibo、Rwordseg、tmcn 等 R 包的作者。与肖凯合著了《数据科学中的R语言》,参与翻译了《R语言核心技术手册》、《机器学习与R语言》。
屠呦呦.pic

这篇文章本来是从屠呦呦得诺奖的时候开始写的,作为一个拖延症晚期患者,直到今天才修改好。当然,现在讨论这个话题可以避免很多信仰方面的争端,大家可以心平气和地讨论药的问题。

对于中药、西药和统计学我都只是初窥门径,没有资格代表其中任意一方,在这里只是介绍一些本人在这个行业中工作多年学到的知识和个人的看法。之所以敢写这篇文章,是因为这是一篇科普文,比起某些因为信仰而走火入魔的科普作者,我觉得我还是很有资格的,毕竟我在西药研发和统计学的业界真刀真枪地工作了好多年,也帮助包括几家大药厂在内的很多著名公司用数据解决过不少实际的问题。

继续阅读中药、西药及统计学