标签归档:大数据

COS访谈第22期:李丰老师

【COS编辑者按】受访者:李丰      采访者:王小宁 张心雨      审稿人:成慧敏    

          李丰,博士, 中央财经大学统计与数学学院,副院长,硕士研究生导师, 主要研究方向为大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法以及多元模型。现任北京大数据协会理事,中国统计教育学会高等教育分会副秘书长,曾任2014 年金融工程与风险管理国际研讨会执行秘书。李丰老师是多个国家项目的项目负责人及主要参加人,曾获得The 2014 Cramér Prize等重要奖项。著有《大数据分布式计算与案例》等书籍。 继续阅读COS访谈第22期:李丰老师

统计学发展方向的选择

看这题目,多吓唬人。又是方向,又是选择。一看就是知道作者是一个深受商学院教育毒害的砖家!但是,想跟大家说的是,我真心想把这个题目整小点,但是困难。为什么?因为接下来跟大家瞎聊的故事,确实关乎发展方向,确实关乎取舍。或者,至少关乎我自己的研究团队(小二十号兄弟姐妹)的方向和选择!

战略选择1 继续阅读统计学发展方向的选择

COS访谈第十九期:张志华教授

【COS编辑部按】 受访者:张志华   采访者:常象宇   文字整理:王莉晶 朱雪宁

张志华,博士,上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授,计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前,是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。主要从事人工智能、机器学习与应用统计学领域的教学与研究。迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文。是美国“数学评论”的特邀评论员,国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委。其公开课《机器学习导论》和《统计机器学习》受到广泛关注。

张志华教授和他的学生们

张志华教授和他的学生们

2015年9月19日晚,在美丽的古都西安,张志华接受了常象宇博士(西安交通大学管理学院助理教授)的采访,王莉晶、朱雪宁对采访稿进行了一些文字上的整理和修改,全文最终由采访人常象宇和被采访人张志华审核定稿。

下面是访谈的全部内容。

常象宇:请您简单介绍一下您博士期间的研究和促使您出国求学的原因。

张志华:当时在国内读博士的时候,我的研究主要是集中在利用模糊数学,神经网络与遗传算法、并利用它们解决图像处理、计算机视觉等中的问题。当时做这些方法还是发表一些论文,毕业条件也很容易达到的,但是自己隐隐约约总觉得这个领域不太对自己胃口。而且博士读了4年,之前博士论文基本完成。最后一年的空档期,我读到了Biometrika和JRSSB上面Peter Green和S. Richardson的关于RJMCMC(Reversible Jump Markov Chain Monte Carlo)的文章。RJMCMC的思想是把参数估计和模型选择放在一个统一的框架下进行。特别是,他们在JRSSB上的文章给出了求解单变量高斯混合模型的RJMCMC方法。当时用高斯混合模型去做图像分割是比较重要的方法,但通常是用BIC等准则进行模型选择,参数估计和模型选择是两个分离的过程。所以当时计算机视觉界关注到RJMCMC。但是我们遇到的问题不是单变量问题,而是高维问题。Green他们文章特别提到,他们方法推广到高维是Open Problem,并说这是个比较难的问题。当时我的第一感觉,我可以解决这个问题。我们利用SVD分解设计了相应的算法,效果也不错。但是里面的证明我还是没法解决,主要是缺少统计背景。但发现这些东西,我突然觉得特别喜欢,所以当时就决定改行。而在国内无法学到这些东西,也找不到相关书籍,当时上国际网是要付费的,不像现在获取资料如此方便。那段时间,在Mike Jordan教授个人主页上发现了他的统计学习的讲义“概率图模型导论”。那个时候下载1M需要大约5元钱。所以颇花了一番周折才弄到Mike 的讲义。读完之后收益非常大, 也喜欢上了统计学习这个方向。意识到相关背景自己缺得太多,而国内很难找到相关书籍啊。

常象宇:您后来又是如何师从了国际著名的统计机器学习专家Michael Jordan教授的呢? 继续阅读COS访谈第十九期:张志华教授

极简 Spark 入门笔记——安装和第一个回归程序

现在的各种数据处理技术更新换代太快,新的名词和工具层出不穷,像是 Hadoop 和 Spark 这些,最近几年着实火了一把。事实上听说 Spark 也有一段时间了,但一直是只闻其名不见其实,今天就来简单记录一下初学 Spark 的若干点滴。

Spark 是什么

按照 Spark 官方的说法,Spark 是一个快速的集群运算平台,以及一系列处理大型数据集的工具包。用通俗的话说,Spark 与 R 一样是一套用于数据处理的软件和平台,但它最显著的特点就是处理大型数据(我就是不说大数据 ( ̄^ ̄))的能力。

极简安装

Spark 本身面向的是大规模的分布式计算,但对学习和测试来说,利用单机的多核 CPU 就已经足够了,所以作为入门,我并没有打算去涉及多台计算机相连的情形。在这个基础上,第一件出乎我意料的事情就是,Spark 的安装和配置其实可以是异常简单的。

在网上出现的各种资料中,Spark 经常与 Hadoop 和 Scala 这两个名词一起出现。前者也是一个大型分布式计算的框架,诞生得比 Spark 更早;后者是 Spark 主要使用的一种编程语言。这就给不明真相的群众造成了一种印象,好像要使用 Spark 的话就得先安装配置好 Hadoop 和 Scala,而要安装它们又得有更多的软件依赖。但实际上,要在单机上使用 Spark,真正需要的只有下面几样:

  1. 一台金光闪闪的电脑
  2. 在上面这台电脑里面装一个金光闪闪的 Linux 操作系统
  3. 在上面这个系统里面装一个金光闪闪的 Java 开发环境(JDK)

这三样可以说是大部分计算环境的标配,如果系统还没有安装 JDK,那么一般都可以用系统的包管理工具,比如 Fedora 下是

sudo yum install java-1.8.0-openjdk

Ubuntu 下是

sudo apt-get install openjdk-7-jdk

有了上面的开发环境,安装 Spark 就非常容易了,基本上只要下载预编译包,解压缩,然后添加系统路径即可。首先,到 https://spark.apache.org/downloads.html 选择最新的 Spark 版本和 Hadoop 版本(实际上我们暂时用不上 Hadoop,所以任何版本都行),然后下载压缩包。 继续阅读极简 Spark 入门笔记——安装和第一个回归程序

郁彬:让我们拥抱数据科学(Let us own data science)

郁彬教授8月22日在北京大学做了名为让我们拥抱数据科学(Let us own data science)的讲座。在演讲中郁彬从一个统计学家的角度出发,讲述了数据科学的兴起历史和目前状况,并且对统计学科、从事统计相关工作的人士如何跟上时代步伐拥抱数据科学给出了非常多的建议。经过郁彬的允许和支持,本文分享了她此次演讲的幻灯片和视频!

演讲人介绍:郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

讲座摘要:This talk is a repeat of my IMS Presidential Address in Sydney at the joint conference of Statistical Society of Australia and IMS in July, 2014. It is about the history of the statistics discipline, the intimate connections between statistics and computing, and the need for Statistics to embrace data science.

幻灯片:http://www.stat.berkeley.edu/~binyu/ps/papers2014/IMS-pres-address14-yu.pdf

中文演讲视频:

在悉尼的英文演讲视频(略有不同):http://www.youtube.com/watch?v=92OjsYQJC1U