标签归档:统计

[朝花夕拾] 迎接信息时代的统计挑战

本文略有修改,原文请点击此处

本文作者为俄亥俄州立大学的施涛。他把自己读郁彬老师的综述性文章:Embracing Statistical Challenges in the Information Technology Age的读后感和大家分享。

世事变迁,最近居然忽然有时间坐下来读些东西,重新审视一下这几年统计领域的发展了。粗略回想了一下,惭愧地发现我好像连博士导师的文章也没有系统地读过几篇,只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读,了解一下她对统计研究和学科发展的观点。

木然回首,那文已在灯火阑珊处。2007年时她写过一篇综述性文章:Embracing Statistical Challenges in the Information Technology Age, Bin Yu (2007) Technometrics, 49(3), 237-248。摘要如下: 继续阅读[朝花夕拾] 迎接信息时代的统计挑战

从数据到价值——创业团队应该关注的四个阶段

COS编辑部按:本文作者为北京大学王汉生教授,文章面向光华MBA学生系统梳理了从数据到价值的理念。作者简介:王汉生教授现任狗熊会会长、北京大学商务智能研究中心主任、北京大学光华管理学院商务统计与经济计量系系主任。现为ISI, ASA, IMS, RSS, ICSA会员,ASA会士(2014年6月23日更新)。

问题背景

whs这是一个最好的时代,移动互联网技术为从业者提供了无比丰富的数据。从人们的言行举止、社交关系、到地里位置无处不在。这些详细宝贵的数据,蕴含了巨大的价值!但是,这也是一个最坏的时代,面对汹涌而来的海量数据,绝大多数从业者却无可适从,无法从中发掘出有用的信息,难以实现从数据到价值的转换,这是何等的遗憾!如果这是一个从业者的遗憾,无需担忧,因为这是他的个人问题。谁让他不好好上一门王老师的《商务统计学》呢?嘿嘿:-) 如果这是两个从业者的遗憾,也可以高枕无忧,两个人没上《商务统计学》呗!但是,如果这是绝大多数人的遗憾,那么这就是整个行业和教育的遗憾,我们就需要检讨:这是怎么回事,问题出在哪个环节上?

如果尝试从媒体中寻找答案,那么五花八门。但是,背后的故事基本都是一样的。那就是需要一个爱因斯坦一样的天才,掌握着可乐配方一样神秘的算法,然后从一群垃圾都不如的数据中,产生了惊为天人的发现,造就了巨大的商业成功。人们管这样一群神奇的天才叫:数据科学家!“数据科学家”这个词汇是一个伟大的创举,它笼统地覆盖了计算机、管理科学、统计学、营销、经济学等众多学科。因此,每个学科都喜欢这个名词,都觉得和自己相关。但是,谁都给不出一个精确的定义。但是,这不重要,这不妨碍人们以各自的标准去寻找自己心中的那个“数据科学家”。因此,不少创业团队在创始初期,不惜血本,从拥有大量“数据科学家”的知名企业招揽人才。这些企业有哪些呢?谷歌系、阿里系、腾讯系、百度系等等。不管这批“数据科学家”在自己的专业方面是如何优秀(而事实上也确实极其优秀),他们是否会对这个新生的创业团队带来相应的价值?无论他们自己是创业者,还是创业团队的核心员工,还是普通员工,他们成功的概率几何?要让我赌一把,我一定是赌他:不成功(不一定失败,不成功的定义是其实际价值产出远远低于预期)。这里并不是看低这些优秀个体的个人能力。来自一个优秀企业的优秀员工,其自身在专业上的出色是毋庸置疑,值得尊敬,甚至崇拜的。但是,一个基本事实:这些优秀的员工在高端大气上档次的企业,如龙如虎,价值发挥淋漓尽致。但是,一旦到一个草根初期的创业团队,他们实现完全成功的概率极低。为什么?因为从企业到个人,都没有仔细思考过从数据到价值的过程,进而无法理解这些优秀的个体在各自的组织中,在当前这个创业阶段,可以起到什么样的作用。进而,对人对事都产生了错误的判断。 继续阅读从数据到价值——创业团队应该关注的四个阶段

COS访谈第七期:Scott Iverson(杜邦先锋)

【COS编辑部按】受访人:Scott Iverson。

 采访人:林荟,女,杜邦先锋总部市场部统计师,毕业于 Iowa State University 统计系,生年不详卒年尚无法预测。

译者:黄俊文(主要),潘岚锋(勘误),高涛(勘误)。

简介:Scott Iverson,Sr. Marketing manager, Marketing information, DuPont Pioneer (HQ), 在先锋从事数据分析工作 27 年,现任杜邦先锋全球总部市场信息高级经理。

杜邦先锋国际良种公司:杜邦先锋公司是世界 500 强企业,美国杜邦公司旗下的全资子公司,成立于 1926 年,是世界上最早的玉米种业公司,总部设在美国爱荷华州。

 

继续阅读COS访谈第七期:Scott Iverson(杜邦先锋)

25年后的统计系会是什么样?

本文是统计学家Leo Breiman1994年在加州伯克利统计系毕业典礼上的讲话,原文请参考此处
中文译稿可参见施涛博客,本文对其进行了修改和润色。

Leo Breiman简介:加州伯克利统计系教授,美国国家科学院院士,20世纪伟大的统计学家,囊括多项统计领域大奖。机器学习先驱者,分类回归树作者之一,Bagging方法发明者,对模式识别领域有巨大贡献。于2005年逝世。更多信息可参考此处此处

很久以前,Peter Bickel 就请我来做一个毕业典礼致辞。Peter 是非常聪明的,他知道,如果提前请人在似乎很遥远的将来某天去发言,他们很可能会答应,而我就是如此。但随着时间的临近,要发言的现实紧迫感也逼近了。朋友说,“你可以说些很长的笑话”。但是一来我并不擅长讲笑话,二来我觉得讲笑话似乎也不恰当。因此,我还是决定谈谈我们都熟悉的东西——统计——我们都是他的一份子,一个古怪而有趣的领域。

试想一下你已经离开且没有接触这个领域25年了。也许你至今一直在撒哈拉中部的石油勘探公司工作,或者在巴塔哥尼亚做调查,又或者在一个广阔的狩猎保留地中计算着珍稀鸟类数目。

但现在你决定去度假,到伯克利看看,探望下统计系的老教授和朋友。当然,你预料到了会有些变化:老教授变得更老,年轻的也青春已逝。但还会有什么其他变化呢?

好,这里恰有一个水晶球,从它那里我能看到这些变化。

继续阅读25年后的统计系会是什么样?

从另一个角度看统计学留学申请

本文转载自施涛的博客,稍有修改,原文链接请点击此处。本文主要介绍了出国留学中申请统计博士会遇到的一些问题。文章从一个老师以及申请成功的PhD学生的角度来看待看似复杂的留学申请问题,特别适合现在正在准备申请统计学方向的中国学生,或者有志于在统计学界进一步深造的中国人。作者希望能以从“墙外”了解的信息与自己的理解,对正在准备出国的“墙内人士”有所帮助,COS编辑部也希望把这些宝贵的信息尽可能传播到有需要的人。

作者简介:Ohio State University,施涛(统计学教授)、陈甜(统计学PhD在读)

学统计和做统计的人大概都认为统计也算是一门学问(“大概”一词对统计很重要)。很多人在学习的过程中或早或晚都会听到过这样的说法:“统计中重要的不只是我们看到的(数据),更重要的是我们没有看到的(总体、抽样偏差、模型偏差、数据处理错误等)。”对于留学出国申请,很多同学有的一个迷思就是,我知道要有GPA、GRE和TOFEL成绩,我也知道个人陈述(Personal Statement)和推荐信(Recommendation Letter)很重要,可是录取到底是一个什么样的过程,而教授们重视的又是哪些呢?下面就让我们来想一下,分析一下。

大丈夫有所为有所不为。首先最重要的问题就是为什么要出国留学读博士。既然要把这么多的时间和精力投入一件事情,总得给自己一个理由吧。很多人在个人陈述里这么写:“我对统计研究感兴趣”,“我想到国外感受一下”,“别人读了,我为神马不读”,“我妈妈让我读”或者是“我要追的人出国了”等等。可是如果仔细推敲一下,你能用这些理由说服你自己吗?我们这里谈的是你接下来5、6年的时光,甚至是你一辈子的职业走向,而不是中午吃红烧肉还是番茄炒蛋的问题。就说“我想到国外感受一下”这个理由吧,你想要感受一下可以出国旅游,想读一下书可以申请短时间的交换,就为了感受一下花5,6年的时间,你自己是不是信服呢?在申请开始之前,请放下手里的事情,好好审视一下自己的内心,给自己一个想要出国读博的理由。因为博士学习是一个很长很辛苦的过程,你会远离自己的亲人和朋友,要自己处理很多状况。而在你为了学习和生活两头忙的时候,很多你的朋友可能已经开始赚钱养家,结婚生子,走上和你全然不同的人生道路。所以最好你能找到一个足以支持你走到最后毕业和更远的读博理由,而不是为了入学邀请和奖学金。理由不足以说服自己的,可以放松一下去看小说了。

好!现在你决定要申请了。那么我们就先翻墙去看看围城的另外一面(你可能不知道的),然后再回来看我们应该怎么做。

很多人关心的一个问题是,美国统计系(或者相关的其他系)怎么招生呢?统计这个学科还是有特殊性的。因为一般的学生在博士学习的第一年(有时是前两年)还没有足够的经验和导师展开独立研究,所以大多数学校是不分导师而统一招生的。招生小组每年面对几百份的申请,怎么办呢?当然是排序和聚类分析了。

最优多维排序问题在统计理论上的最优解好像还不存在,怎么办?那只有用近似方法了。GPA、TOFEL、 GRE、 个人陈述和推荐信好像都很重要。大家都了解个人陈述和推荐信太过感性很难量化,所以就多给GPA、TOFEL和GRE一些权重吧。事实上,在筛选的第一阶段确实如此。根据这些量化可以比较的指标,我们能找出大概最优秀的30-40个候选人(很像网页搜索问题)。当然,如果你的个人陈述有明显的过人之处,体现出你不寻常的经历,也会稍微提高你的排名。那么这是意味着个人陈述和推荐信没有这些测试成绩重要么?恰恰相反,如果你的成绩都过关,被列入那短名单之后,才是真正选择的时刻。

大多数的学校对语言有硬性规定,所以大多数国际学生不能直接做助教(TA)。而由于统计学科的特殊性,研究助理(RA)也通常会给高年级通过了博士资格考试的在读学生。虽然有些系会集中资源来资助少数国际学生第一年的学习,等他们通过学校的英语测试(要求要高于TOFEL的口语)后改做助教,但这只占了很小的一部分。所以大部分情况是第一轮筛选出来的国际学生将要竞争学校或者学院的Fellowship(全奖)。当系里推荐学生竞争Fellowship的时候,系里要写一份材料推荐你。可是问题是,教授们并不认识你,他们再怎么妙笔生花也不能闭门造车啊。在这个过程中,你的个人陈述和推荐信就显得很重要了。是你的这些材料,把你从一个名字变成一个有血有肉有故事的人呈现在系里负责给你写推荐材料的老师面前。你把自己挖得越深,写出来的东西越体现你的能力和感悟,推荐老师对你的推荐越详尽真实,引发的共鸣也就更多。统计里说:Garbage in,Garbage out(垃圾进垃圾出)。如果你没有好的素材输入, 谁也没办法给你写出一个漂亮的推荐材料出来。

现在你对这个过程有了一些了解(特别是资助方面),你就可以研究一下在墙的这边你自己可以看到的。GPA、TOFEL、GRE固然重要,你要依靠这些通过第一轮的筛选。但是一旦成绩出来,就是板上钉钉——不会变了(当然如果GRE太低你要重考)。而真正能让你脱颖而出拿到Offer的是你的个人陈述和推荐信。个人陈述是最能展现自己个性的地方,却往往没有得到足够的重视。有时候有些话会让别人认为你并不了解统计。比如:“I want to be a statistician when I was five years old (see why you cannot be here)”, “My math background guarantees me a bright future as a statistician”, “I know I can solve any problems if I work hard enough”等等。有时候可能是语言的问题,有时候是你真的不懂统计学科。不妨把你写的句子翻译成中文想想是不是说得通。如果你读到“我5岁就想成为统计学家”,“我数学好所以保证能成为一名优秀的统计学家”或者“我努力的话就无所不能”这种中文句子,会对写作者有什么印象呢?当你仔细检查过内容没有问题以后,也要注意修改语法错误。明显的低级语法错误,会让评审人对你的态度还有你是否能适应学习和研究产生质疑。认真地挖掘自己,丰富自己个人陈述的内容,仔细检阅内容的合理性和语法的正确使用,这样才会提高你申请成功的可能性。

对于国际学生,推荐信虽然有时候也很重要,但大部分时候并不是决定因素,除非信上说你很差。但并不表示这部分你就不需要认真对待。曾经有过其他各项条件都很优秀的学生,因为三封推荐信屡次出现同样的语法和排版错误而没办法被推荐去竞争Fellowship。还有推荐学基础数学的推荐信被寄到了统计系这样的事情发生。

说了这么多,总体感觉是:自己优秀很重要,但优秀的标准不是唯一的,自己优秀也要懂得展示。所谓细节决定成败。

总之,申请是一个很辛苦的过程。谋事在人,成事在天。我们所能做的就是把自己可以做的部分做到最好,相信天道酬勤。祝大家都能进入自己理想的学校学习生活。就算是最后没能达到最理想的结果,也可以对自己说我尽了自己的全力,没有遗憾。开心就好!