第七届中国R语言会议(北京会场)通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了六届R语言会议,促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,我们准备在2014年5月24-25日在北京举行第七届中国R语言会议(北京会场)。除了统计之都主站,会务信息还会通过微信(扫描本页面右侧微信公众平台二维码即可关注)、微博(@统计之都)来发布,欢迎大家关注获取最新消息。

会议的相关情况如下:

一、会议时间

2014年5月24-25日。

二、会议地点

24日:中国人民大学如论大讲堂。
25日:中国人民大学明德商学楼102、202、302分会场。 继续阅读

昔日因,今日意

本文作者杨灿:杨灿于2011年在香港科技大学电子计算机工程系获得博士学位,2011-2012为耶鲁大学生物统计系博士后,现为耶鲁大学副研究员。

飞帅云:“三十功名尘与土,八千里路云和月。莫等闲,白了少年头,空悲切。”可我在耶鲁两年多了,基本一事无成。既没有像当年那样死磕Lasso和Boosting,也没有能追随Deep Learning 的浪潮。曾经真的以为人生就这样了,平静的心拒绝再有浪潮。斩了千次的情丝却断不了,百转千折她将我围绕。有人问我她究竟是哪里好?我想我是鬼迷心窍。

1 向来痴

她就是LMM,我给她起了一个美丽的中文名:“林妹妹”。

对我这种工科男,与林妹妹相知相识,是需要一段奇缘。从在浙大本科自动化专业入学,到港科大的电子系博士快毕业,曾经有且仅有一次机会与她相识,还是被很傻很天真的我错过了。现在不管我怎么念“菠萝菠萝蜜”,时光还是不会倒流的。我只是想,如果上天可以给我一个机会再来一次的话,我会对她说八个字:“我们好像在哪见过?”然而,有缘人终归是有缘人,奇妙的感觉就在点火的那一刹那。 继续阅读

失联搜救中的统计数据分析

大数据时代如何活用数据可视化、大数据与众包、群体智慧、贝叶斯方法等为失联搜救出谋献策?请看下文。

作者:统计之都创作小组(code99)

引子

“MH370”作为航班代码,是近日震惊世界的马来西亚航空公司客机失去联络事件(后简称“马航事件”)留给公众最深刻的数字印象。时至今日,有关马航事件的调查和搜救工作仍在继续。遗憾的是直到截稿时间,MH370航班的残骸仍未找到。

在历史上的多次飞机船只等交通工具出现失联情况的突发事件中,数据的收集、分析以及信息的及时发布都在搜寻中起到过关键的作用。比如在2009年,法国航空公司曾有一架民航客机失去联络和踪迹。当时,有不少基于数据分析的文献为失事飞机的搜寻提供了援助。前事不忘,后事之师。本文旨在基于统计学领域的相关知识结合大众可以获知的信息来对马航事件进行了解和分析。本文秉持科普视角,试图阐述在应对马航事件过程中数据收集和数据分析所起到的作用,继而为寻找失联飞机提供一些思路。我们将以寻找失事飞机和船只的事件为线索,来梳理其中涉及到的数据分析思路,以试图减少大家的猜疑和困惑。 继续阅读

COS每周精选:统计学者的工作及风范: 灵感、抱负与雄心

本周投稿:谢益辉 冷静 施涛  

  • News:Dr. Yihui Xie at RStudio Inc. has been selected as ICSA Bulletin’s editor-in-chief 2015-2018.
  • 从历史上看, 一个国家要变成大国, 变成真正受人尊敬的大国, 或者一个科学界, 要衡量它的成熟以及它本身的品质, 其中一个很重要的衡量标准是它怎么对待学术成就和学术风范。吴建福教授所谈论的三重境界可以看做我们自我认识的一座标杆。传送门。以及吴建福教授在北大的讲座
  • R与网络:与普通的扩散研究不同,网络扩散开始考虑网络结构对于扩散过程的影响。在各式各样的网络中扩散过程都是何种形式?用R出手,一目了然
  • R Application in Stock:看来经济学诺贝尔奖的余温未平,虽然长期的股票价格表现出一些规律,但短期内却显得繁芜丛杂,不看长线看短线,股票价格是可预测的嘛?
  • R画图:R能输出SPSS那样漂亮的图表输出嘛?有需要的童鞋看过来
  • R与Data Science:“秀恩爱,死的快。”相信脸谱网前两天关于情侣关系的展示给了您深刻的印象。什么什么,striking points, no details?来看看这位极客大侠给我们的解译
  • Machine Learning:用机器学习的方法玩Flappy Bird游戏,正所谓高端大气,狂炫酷拽。(这位兄台你这么酷,你女朋友知道吗?咳咳,花这么多时间研究这个怎么会有女朋友……)
  • 新鲜的老生常谈:当我们谈论数据科学的时候,我们在谈论什么?这是一群新生的探索,也是一群老生的总结。不愤不启,不悱不发,正确的提出问题,才有可能找到解答。在一问一答中,理解数据科学。
  • 数据可视化: 数据可视化中颜色的运用。数据可视化中,用色彩来表示一些变量往往可以起到很显著的视觉效果,但是在颜色的HSV(hue, saturation, value)表示中的等距对人的视觉来说不一定等距,这就可能造成一些理解上的偏差。文章介绍了几个避免的方法。愿意深入了解的可以看看IBM的博文: Why Should Engineers and Scientists Be Worried About Color? 探其因,穷其理,辨其思。
  • Timeline of statistics: 温故而知新,可以为师矣。从上古开天辟地,到如今的数据科学,了解过去的发展,才能知道未来的走向。
  •  数据科学远见:(普渡众生大学)的Cleveland老爷子,在2001年就写了一篇文章,提出了他的对数据科学这个学科设置的构想。
    •   Multidisciplinary Investigation (25%) — collaboration with subject areas
    • Models and Methods for Data (20%) — more traditional applied statistics
    • Computing with Data (15%) — hardware, software, and algorithms
    • Pedagogy (15%) — how to teach the subject
    • Tool Evaluation (5%) — keeping track of new tech
    • Theory (20%) — the math behind the data
  • 这篇文章是一系列其它有关统计教育的文章中的一篇,这一期文章的目录参见链接。可以看看21世纪初的时候,统计学家们认为统计学科应该何处去。

“支持向量机系列”的番外篇一: Duality

原文链接请点击这里

之前关于 support vector 的推导中,我们提到了 dual ,这里再来补充一点相关的知识。这套理论不仅适用于 SVM 的优化问题,而是对于所有带约束的优化问题都适用的,是优化理论中的一个重要部分。简单来说,对于任意一个带约束的优化都可以写成这样的形式:

\[
\begin{aligned}
\min&f_0(x) \\
s.t. &f_i(x)\leq 0, \quad i=1,\ldots,m\\
&h_i(x)=0, \quad i=1,\ldots,p
\end{aligned}
\]

形式统一能够简化推导过程中不必要的复杂性。其他的形式都可以归约到这样的标准形式,例如一个 $\max f(x)$ 可以转化为 $\min -f(x)$ 等。假如 $f_0,f_1,\ldots,f_m$ 全都是凸函数,并且 $h_1,\ldots,h_p$ 全都是仿射函数(就是形如 $Ax+b$ 的形式),那么这个问题就叫做凸优化(Convex Optimization)问题。凸优化问题有许多优良的性质,例如它的极值是唯一的。不过,这里我们并没有假定需要处理的优化问题是一个凸优化问题。

继续阅读