标签归档:统计学习

COS访谈第十九期:张志华教授

【COS编辑部按】 受访者:张志华   采访者:常象宇   文字整理:王莉晶 朱雪宁

张志华,博士,上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授,计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前,是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。主要从事人工智能、机器学习与应用统计学领域的教学与研究。迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文。是美国“数学评论”的特邀评论员,国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委。其公开课《机器学习导论》和《统计机器学习》受到广泛关注。

张志华教授和他的学生们

张志华教授和他的学生们

2015年9月19日晚,在美丽的古都西安,张志华接受了常象宇博士(西安交通大学管理学院助理教授)的采访,王莉晶、朱雪宁对采访稿进行了一些文字上的整理和修改,全文最终由采访人常象宇和被采访人张志华审核定稿。

下面是访谈的全部内容。

常象宇:请您简单介绍一下您博士期间的研究和促使您出国求学的原因。

张志华:当时在国内读博士的时候,我的研究主要是集中在利用模糊数学,神经网络与遗传算法、并利用它们解决图像处理、计算机视觉等中的问题。当时做这些方法还是发表一些论文,毕业条件也很容易达到的,但是自己隐隐约约总觉得这个领域不太对自己胃口。而且博士读了4年,之前博士论文基本完成。最后一年的空档期,我读到了Biometrika和JRSSB上面Peter Green和S. Richardson的关于RJMCMC(Reversible Jump Markov Chain Monte Carlo)的文章。RJMCMC的思想是把参数估计和模型选择放在一个统一的框架下进行。特别是,他们在JRSSB上的文章给出了求解单变量高斯混合模型的RJMCMC方法。当时用高斯混合模型去做图像分割是比较重要的方法,但通常是用BIC等准则进行模型选择,参数估计和模型选择是两个分离的过程。所以当时计算机视觉界关注到RJMCMC。但是我们遇到的问题不是单变量问题,而是高维问题。Green他们文章特别提到,他们方法推广到高维是Open Problem,并说这是个比较难的问题。当时我的第一感觉,我可以解决这个问题。我们利用SVD分解设计了相应的算法,效果也不错。但是里面的证明我还是没法解决,主要是缺少统计背景。但发现这些东西,我突然觉得特别喜欢,所以当时就决定改行。而在国内无法学到这些东西,也找不到相关书籍,当时上国际网是要付费的,不像现在获取资料如此方便。那段时间,在Mike Jordan教授个人主页上发现了他的统计学习的讲义“概率图模型导论”。那个时候下载1M需要大约5元钱。所以颇花了一番周折才弄到Mike 的讲义。读完之后收益非常大, 也喜欢上了统计学习这个方向。意识到相关背景自己缺得太多,而国内很难找到相关书籍啊。

常象宇:您后来又是如何师从了国际著名的统计机器学习专家Michael Jordan教授的呢? 继续阅读COS访谈第十九期:张志华教授

我们为什么要做研究?

【COS编辑部按】本文作者是2013年的总理科学奖得主 Terence Terry Speed。关      于他的详细介绍,可参考COS访谈第十二期,Terry Speed教授的名言是“统计学本来就应该成就其他学科,我太爱统计了,它像把钥匙一样让我们能溜进任何学科的后院里随便玩耍”。

原文发表在 IMS Bulletin 链接:http://bulletin.imstat.org/2015/02/terences-stuff-why-do-we-do-research/ 。2011年6月 以来的 IMS Bulletin 系列文章 “Terence’s Stuff” 都收录在 http://bulletin.imstat.org/category/terences-stuff/。本文由王小宁翻译,冯凌秉、施涛审校。

Terry-Speed-1-2

“我们为什么要做研究?” --这个问题似乎由调查机构,比如说像Vitae 这种立志于通过转化研究者专业和职业发展路径来激发他们潜能的国际项目,通过抽样调查来回答最为合适。这里我只是想用我的个人经验来探讨一下这个问题。

如果有人向我询问关于读博士或博士毕业以后的研究生涯的话,我会说从事学术研究的动机是极其重要的。只有在经过深思熟虑之后还认定真的想做研究的人才应该开始读博士。在做这个决定的过程中,听取别人的意见尤其重要的,特别是和那些之前有做过研究的过来人。这些人具体会想些什么,或者具体会谈到哪些不可能一样,但是基本上都会聊到诸如个性、价值观、技能和经验、学习方式、所擅长的东西和喜欢做的事情等等。 继续阅读我们为什么要做研究?

模型选择的一些基本思想和方法

作者:高涛  编辑:王小宁

0. 引言

有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观的理解是,统计学习侧重于从概率分布来描述数据生成机制,除了预测之外,还关心结果(参数假设、误差分布假设)的检验,而机器学习侧重于从函数拟合角度来描述数据生成机制,基本目的就是为了拟合和预测,缺乏严谨的参数、误差的检验机制,比如下式:
\[
Y = f(X) + \epsilon
\] 继续阅读模型选择的一些基本思想和方法

COS每周精选:统计速递

本期投稿:谢益辉 冷静 王小宁

编辑:王小宁

数据可视化

基于Shiny的维数灾难的可视化(随着维数增加,给定边长的立方体容纳的点会越来越稀疏)。

统计方法

每一种新的统计方法被发表时,作者不免要和已有的方法进行比较,但这里面存在一些问题,例如作者可能并不完全了解其它方法,在比较的时候可能会有所偏颇,或者软件实现不正确或效率低下,等等。对这些问题Matthew Stephens提出了他的设想,何不搭建一个竞争平台?如果你的方法被别的作者认为不如他们的方法,你可以到这个平台上来看他们是如何进行比较的,以及考虑改进你的方法和软件实现。

继续阅读COS每周精选:统计速递

[朝花夕拾] 从学习数学公式到实践统计分析

想想从小学到大学,在各种课程中我们都是在学习自然界的各种规律。它们之所以称为规律,就是因为它们有可重复性。从数学、物理、化学等自然学科,到历史、经济、社会等人文学科,人们都希望找到“规律”,从而用其解释、预测和改变周围的世界,就像著名的

$$E = MC^2$$

到大学毕业时,我们用二十多年时间积累了各种规律和它们的推导方法。而如何将学到的知识应用到实际中,从小学中做的应用题开始,好像越往上学,我们的课程中关注的也少了。

回头看自己大学从概率统计专业毕业时,也觉得自己对书本中学到的各种概率模型、参数估计、回归分析掌握得还不错。直到在伯克利博士学习的第二年,才发现我以前是多天真烂漫,对统计应用是多么不明觉厉了。

最难忘的经历是上David Freedman的应用统计的第一堂课。第一次上课前的几天,他给选课的学生发了封邮件,告诉大家在第一次上课之前要读三篇文章。大家都是好学生嘛,虽然文章加起来一百多页,大家也都在课前认真地读了(至少认为好好读了)。

photoNormal

记得当时课程是在埃文斯大楼的十楼小会议厅里进行,这个小厅的窗外景色还真是让人心旷神怡。在 David 介绍了一下课程结构和一些相关安排后,我们就进入了正题:文章讨论。他平静地坐在椅子上问,“大家有什么的问题? ” 然后,然后就没有然后了……

沉默,沉默,然后更长的沉默。我们没想到,讨论是需要我们发起,而不只是参与讨论 。过了一会他又问, “对文章有什么问题? ” 我们就坐在那里超过十分钟,不断地把论文翻来翻去试图找到一个有意义的问题来问。如果我们不问任何问题,好像我们就永远坐在那里。感觉这是我记忆中最长的十多分钟。这时谁也没有心情来欣赏窗外的美景了。

6815420787_350f31f3f8_z

继续阅读[朝花夕拾] 从学习数学公式到实践统计分析