我们为什么要做研究?

【COS编辑部按】本文作者是2013年的总理科学奖得主 Terence Terry Speed。关      于他的详细介绍,可参考COS访谈第十二期,Terry Speed教授的名言是“统计学本来就应该成就其他学科,我太爱统计了,它像把钥匙一样让我们能溜进任何学科的后院里随便玩耍”。

原文发表在 IMS Bulletin 链接:http://bulletin.imstat.org/2015/02/terences-stuff-why-do-we-do-research/ 。2011年6月 以来的 IMS Bulletin 系列文章 “Terence’s Stuff” 都收录在 http://bulletin.imstat.org/category/terences-stuff/。本文由王小宁翻译,冯凌秉、施涛审校。

Terry-Speed-1-2

“我们为什么要做研究?” --这个问题似乎由调查机构,比如说像Vitae 这种立志于通过转化研究者专业和职业发展路径来激发他们潜能的国际项目,通过抽样调查来回答最为合适。这里我只是想用我的个人经验来探讨一下这个问题。

如果有人向我询问关于读博士或博士毕业以后的研究生涯的话,我会说从事学术研究的动机是极其重要的。只有在经过深思熟虑之后还认定真的想做研究的人才应该开始读博士。在做这个决定的过程中,听取别人的意见尤其重要的,特别是和那些之前有做过研究的过来人。这些人具体会想些什么,或者具体会谈到哪些不可能一样,但是基本上都会聊到诸如个性、价值观、技能和经验、学习方式、所擅长的东西和喜欢做的事情等等。 继续阅读我们为什么要做研究?

模型选择的一些基本思想和方法

作者:高涛  编辑:王小宁

0. 引言

有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观的理解是,统计学习侧重于从概率分布来描述数据生成机制,除了预测之外,还关心结果(参数假设、误差分布假设)的检验,而机器学习侧重于从函数拟合角度来描述数据生成机制,基本目的就是为了拟合和预测,缺乏严谨的参数、误差的检验机制,比如下式:
\[
Y = f(X) + \epsilon
\] 继续阅读模型选择的一些基本思想和方法

lfda R包的使用方法以及算法的简要说明

作者: 唐源(Yuan Tang) 编辑:王小宁

局部Fisher判别分析(Local Fisher Discriminant Analysis)是许多度量学习(Metric Learning)方法中效果最好的其中一种,它是一种线性监督降维方法,它可以自动找到合适的距离转换矩阵(transformation matrix)来抓住数据的不同类(class)的特征,通过加大不同类之间的距离(between-class distance)以及缩小同类里面每个样本的距离(within-class distance),让不同类之间的界限更明显,从而使可视化效果更清晰。它同时也保持了多模(multimodality)的特征,这在处理一个类有多个的集群的时候有非常大的作用,比如说对于一种有多种可能症状的疾病来说,那些可能的症状都是同一类里面不同的集群,lfda可以把这种病的局部结构和特征(local structure)保持下来从而不会影响到之后的机器学习算法的效果。更细节一点的英文的理论介绍和应用可以点击这里这里。lfda对特征提取,降维,集群,分类,信息恢复,以及计算机视觉方面起到非常大的作用。

继续阅读lfda R包的使用方法以及算法的简要说明

COS每周精选:数据挖掘中的十大算法

本期投稿:谢益辉 施涛 朱雪宁 王小

编辑:王小宁

国际权威的学术组织 The IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, 和 CART.,相关的论文在这里。最近有人把这些算法用R实现了

继续阅读COS每周精选:数据挖掘中的十大算法

COS沙龙第29期(北京)纪要

主题:“零”代码  “玩”数据

嘉宾:李栋
主办:统计之都
场地:中国人民大学
组织:蔡占锐张颖王小宁魏太云
纪要:王小宁

简介:第28期沙龙(北京站)于2015年7月26日在中国人民大学顺利举行。本次嘉宾是来自中国城市规划设计研究院生态所主任工程师李栋博士,他主要分享自己城市问题研究和规划中利用大数据开展定量分析和应用,重点关注签到、照片等基于地理位置的新型数据。本次讲座从演讲者个人经历出发,面向非IT相关背景的人士,分享和介绍一些在传统行业里利用互联网数据等新型数据方面的工具、经验和感想。

本次沙龙的主要内容:

继续阅读COS沙龙第29期(北京)纪要