第七届中国R语言会议(北京会场)通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了六届R语言会议,促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,我们准备在2014年5月24-25日在北京举行第七届中国R语言会议(北京会场)。除了统计之都主站,会务信息还会通过微信(扫描本页面右侧微信公众平台二维码即可关注)、微博(@统计之都)来发布,欢迎大家关注获取最新消息。

会议的相关情况如下:

一、会议时间

2014年5月24-25日。

二、会议地点

24日:中国人民大学如论大讲堂。
25日:中国人民大学明德商学楼102、202、302分会场。 继续阅读

失联搜救中的统计数据分析

大数据时代如何活用数据可视化、大数据与众包、群体智慧、贝叶斯方法等为失联搜救出谋献策?请看下文。

作者:统计之都创作小组(code99)

引子

“MH370”作为航班代码,是近日震惊世界的马来西亚航空公司客机失去联络事件(后简称“马航事件”)留给公众最深刻的数字印象。时至今日,有关马航事件的调查和搜救工作仍在继续。遗憾的是直到截稿时间,MH370航班的残骸仍未找到。

在历史上的多次飞机船只等交通工具出现失联情况的突发事件中,数据的收集、分析以及信息的及时发布都在搜寻中起到过关键的作用。比如在2009年,法国航空公司曾有一架民航客机失去联络和踪迹。当时,有不少基于数据分析的文献为失事飞机的搜寻提供了援助。前事不忘,后事之师。本文旨在基于统计学领域的相关知识结合大众可以获知的信息来对马航事件进行了解和分析。本文秉持科普视角,试图阐述在应对马航事件过程中数据收集和数据分析所起到的作用,继而为寻找失联飞机提供一些思路。我们将以寻找失事飞机和船只的事件为线索,来梳理其中涉及到的数据分析思路,以试图减少大家的猜疑和困惑。 继续阅读

COS每周精选:统计学者的工作及风范: 灵感、抱负与雄心

本周投稿:谢益辉 冷静 施涛  

  • News:Dr. Yihui Xie at RStudio Inc. has been selected as ICSA Bulletin’s editor-in-chief 2015-2018.
  • 从历史上看, 一个国家要变成大国, 变成真正受人尊敬的大国, 或者一个科学界, 要衡量它的成熟以及它本身的品质, 其中一个很重要的衡量标准是它怎么对待学术成就和学术风范。吴建福教授所谈论的三重境界可以看做我们自我认识的一座标杆。传送门。以及吴建福教授在北大的讲座
  • R与网络:与普通的扩散研究不同,网络扩散开始考虑网络结构对于扩散过程的影响。在各式各样的网络中扩散过程都是何种形式?用R出手,一目了然
  • R Application in Stock:看来经济学诺贝尔奖的余温未平,虽然长期的股票价格表现出一些规律,但短期内却显得繁芜丛杂,不看长线看短线,股票价格是可预测的嘛?
  • R画图:R能输出SPSS那样漂亮的图表输出嘛?有需要的童鞋看过来
  • R与Data Science:“秀恩爱,死的快。”相信脸谱网前两天关于情侣关系的展示给了您深刻的印象。什么什么,striking points, no details?来看看这位极客大侠给我们的解译
  • Machine Learning:用机器学习的方法玩Flappy Bird游戏,正所谓高端大气,狂炫酷拽。(这位兄台你这么酷,你女朋友知道吗?咳咳,花这么多时间研究这个怎么会有女朋友……)
  • 新鲜的老生常谈:当我们谈论数据科学的时候,我们在谈论什么?这是一群新生的探索,也是一群老生的总结。不愤不启,不悱不发,正确的提出问题,才有可能找到解答。在一问一答中,理解数据科学。
  • 数据可视化: 数据可视化中颜色的运用。数据可视化中,用色彩来表示一些变量往往可以起到很显著的视觉效果,但是在颜色的HSV(hue, saturation, value)表示中的等距对人的视觉来说不一定等距,这就可能造成一些理解上的偏差。文章介绍了几个避免的方法。愿意深入了解的可以看看IBM的博文: Why Should Engineers and Scientists Be Worried About Color? 探其因,穷其理,辨其思。
  • Timeline of statistics: 温故而知新,可以为师矣。从上古开天辟地,到如今的数据科学,了解过去的发展,才能知道未来的走向。
  •  数据科学远见:(普渡众生大学)的Cleveland老爷子,在2001年就写了一篇文章,提出了他的对数据科学这个学科设置的构想。
    •   Multidisciplinary Investigation (25%) — collaboration with subject areas
    • Models and Methods for Data (20%) — more traditional applied statistics
    • Computing with Data (15%) — hardware, software, and algorithms
    • Pedagogy (15%) — how to teach the subject
    • Tool Evaluation (5%) — keeping track of new tech
    • Theory (20%) — the math behind the data
  • 这篇文章是一系列其它有关统计教育的文章中的一篇,这一期文章的目录参见链接。可以看看21世纪初的时候,统计学家们认为统计学科应该何处去。

“支持向量机系列”的番外篇一: Duality

原文链接请点击这里

之前关于 support vector 的推导中,我们提到了 dual ,这里再来补充一点相关的知识。这套理论不仅适用于 SVM 的优化问题,而是对于所有带约束的优化问题都适用的,是优化理论中的一个重要部分。简单来说,对于任意一个带约束的优化都可以写成这样的形式:

\[
\begin{aligned}
\min&f_0(x) \\
s.t. &f_i(x)\leq 0, \quad i=1,\ldots,m\\
&h_i(x)=0, \quad i=1,\ldots,p
\end{aligned}
\]

形式统一能够简化推导过程中不必要的复杂性。其他的形式都可以归约到这样的标准形式,例如一个 $\max f(x)$ 可以转化为 $\min -f(x)$ 等。假如 $f_0,f_1,\ldots,f_m$ 全都是凸函数,并且 $h_1,\ldots,h_p$ 全都是仿射函数(就是形如 $Ax+b$ 的形式),那么这个问题就叫做凸优化(Convex Optimization)问题。凸优化问题有许多优良的性质,例如它的极值是唯一的。不过,这里我们并没有假定需要处理的优化问题是一个凸优化问题。

继续阅读

COS每周精选:谈钱不伤感情

本周投稿:谢益辉 冷静 施涛   肖楠

 

  • 谈钱不伤感情:Revolutions 做了一项调查,发现掌握R语言的人的工资水平在11万美元左右(年薪),比Mapreduce, hadoop 都要高。。哎,别跟我谈钱,多俗啊!忍不住的快来看闪闪发光的标题《R skills attract the highest salaries
  • 生活中的选择:三楼的正能量励志贴,原来我统是这样被羡慕嫉妒恨啊。同时也要告诉自己,两者选其一叫选择,而干不了就换一不叫选择,而叫做逃避
  • 马尔科夫链: 如果你对一些事物还不是很熟悉(例如,红酒,恋爱),但又想显得见多识广,驾轻就熟,那么让马尔科夫链告诉你应如何表达观点。有了理论支持 是不是觉得底气十足?
  • R大战Matlab:一个小系列,比较R和Matlab各自的优势 。第一轮Matlab胜。感兴趣的同学可以自己试一试。
  • R语言:R3.0.3已经发布。先睹为快~
  • R Markdown: 其实新版的R Markdown也有超级牛力,不过现在还不是推广的时候:不过,也许看看也行?R studio官网。
  •  R Function:统计R中最常用的函数 
  • 生活中的大数据: 大数据是什么?在生活中我们能用大数据来做什么?来看看大家都怎么。(来源于quora,多图慎点)。
  •  为什么女科学家这么少?女孩子不够聪明?学数学的女孩不够酷?这是事实导致的差异还是文化引导的结果?来看看女科学家作何解。英文版
  • 图模型/温故而知新,可以为师矣:Eric Xing老师的Probabilistic Graphical Model课程终于完结了,听过Daphne Koller老师PGM在线课程的同学可以再温习下哦,一天看一集,补脑又提神。注意:无字幕,有口音,听习惯就好:)。点击链接 提神醒脑XD。
  •  Hamiltonian蒙特卡洛方法的JavaScript实现。小编不明觉厉,暂且不做评价。
  • 贝叶斯 :尽信书不如无书,且看贝叶斯大家Xi’an对《贝叶斯数据分析》一书中的后验预测P值的质疑
  • 贝叶斯 : 一个“八个学校”的例子教会了我贝叶斯统计,PhillipPrice如是说:点击这里。这个例子展现了一个最基础的贝叶斯分层模型。