分类目录归档:高校课堂

国内高校在线统计课堂

泛滥与缺失:个人征信vs. 征信误差评估

王汉生@北大光华

       最近被刺激了!有人被刺激后的反应是以头抢地尔,而教授被刺激的第一反应是:写Paper!故事的发生是这样的。一天组会,大家东拉西扯,也不知怎么就扯到个人征信上去了。于是突发奇想,我请大家把自己的手机掏出来,每个人查一下自己的“芝麻信用”分是多少。王老师的芝麻信用分高居630之多,心想:这么高的芝麻信用分,可以秒杀众多学生,然后可以得意地哈哈大笑。

001

对,就是上面这个样子:哈,哈,哈,哈。额,噢?Hold on,怎么回事,你的得分居然更高?啊,你也更高?What,你们都这么高?天啊!你们每个人的芝麻信用分都比我高!同学们的芝麻信用分最高的有730,紧跟着一个700+,剩下的虽然不到700,但是无一例外,全部比我高。王老师是整个组里芝麻信用分最低的,木有之一,太丢人了!我这下子才醒悟过来,630不是高考得分,是芝麻信用分。630是一个不怎么乐观的得分。还亏的我自己研究个人征信呢,结果被芝麻信用秒成渣!瞬间,王老师的心情变成 继续阅读泛滥与缺失:个人征信vs. 征信误差评估

COS访谈第十七期:褚挺进

 

SAMSUNG CAMERA PICTURES

【COS编辑部按】

受访人:褚挺进老师   

采访人:王小宁

整理:王小宁

 

褚挺进老师现任中国人民大学统计学院讲师, 于2012年获得美国科罗拉多州立大学统计学博士学位。他主要从事空间统计和数据挖掘方法的研究, 已在重要学术期刊上发表多篇论文, 包括统计学顶级期刊The Annals of Statistics和Journal of the Royal Statistical Society, Series B。

问:您最初学的数学,为什么在读PhD转为统计呢?统计学有什么吸引您的地方

褚:我一开始做得是数学,然后感觉自己又解决不了什么巨大的数学问题,所以感觉做偏数据和偏应用的比较好一点。然后大家都说统计是处理数据的科学,所以选择了统计。当然,另外一个原因是那时候学长们都说统计比较容易找工作。统计学吸引我的地方是它的应用价值比数学要强点,统计虽然有一些理论推导但是比数学少多了。

问:您觉得国内的统计学和国外的统计学教学模式有什么区别?

褚:我感觉在国内的本科生把研究生的课程都上了,甚至国外没开的课都开了,我觉得我们的同学的统计基础比国外的学生强多了。我记得那边没有非参数统计这门课,并且那边的研究生也不会上测度论,他们的那边的研究生学的概率论大体上是我们的本科关于概率论的介绍。我们当时研究生的课程主要有数理统计、概率论、回归分析、实验设计、抽样技术和时间序列,博士的话和老板做一些研究写paper,研究的理论基础主要会用到数学分析、高等代数和实变函数。

问:听说您念PhD时就已经发了四大的文章,您分享下其中的故事么?您觉得发出一篇好文章最重要的是什么?

褚:其实也没有什么故事啦。刚开始的时候是和导师一起做的,起初是做一些模拟,做的多了发现里面有很多值得研究的地方,那篇论文做了1年多。我认为发论文最重要的是要有想法,要让别人知道这是一件很有意义的事情。先要明白之前别人做过的东西,你发现了其中的不足,然后再去改进。另外,在学科的交叉处比较容易出成果。我主要是搞空间统计的,把经典的统计的理论拿到空间统计中来进行分析,就比较容易写出来东西。当然了,不能排除投稿的随机性,这得看自己的运气了。

问:您认为统计研究对编程要求高吗?您对本科生做科研有什么建议? 继续阅读COS访谈第十七期:褚挺进

郁彬:让我们拥抱数据科学(Let us own data science)

郁彬教授8月22日在北京大学做了名为让我们拥抱数据科学(Let us own data science)的讲座。在演讲中郁彬从一个统计学家的角度出发,讲述了数据科学的兴起历史和目前状况,并且对统计学科、从事统计相关工作的人士如何跟上时代步伐拥抱数据科学给出了非常多的建议。经过郁彬的允许和支持,本文分享了她此次演讲的幻灯片和视频!

演讲人介绍:郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

讲座摘要:This talk is a repeat of my IMS Presidential Address in Sydney at the joint conference of Statistical Society of Australia and IMS in July, 2014. It is about the history of the statistics discipline, the intimate connections between statistics and computing, and the need for Statistics to embrace data science.

幻灯片:http://www.stat.berkeley.edu/~binyu/ps/papers2014/IMS-pres-address14-yu.pdf

中文演讲视频:

在悉尼的英文演讲视频(略有不同):http://www.youtube.com/watch?v=92OjsYQJC1U

[朝花夕拾] 从学习数学公式到实践统计分析

想想从小学到大学,在各种课程中我们都是在学习自然界的各种规律。它们之所以称为规律,就是因为它们有可重复性。从数学、物理、化学等自然学科,到历史、经济、社会等人文学科,人们都希望找到“规律”,从而用其解释、预测和改变周围的世界,就像著名的

$$E = MC^2$$

到大学毕业时,我们用二十多年时间积累了各种规律和它们的推导方法。而如何将学到的知识应用到实际中,从小学中做的应用题开始,好像越往上学,我们的课程中关注的也少了。

回头看自己大学从概率统计专业毕业时,也觉得自己对书本中学到的各种概率模型、参数估计、回归分析掌握得还不错。直到在伯克利博士学习的第二年,才发现我以前是多天真烂漫,对统计应用是多么不明觉厉了。

最难忘的经历是上David Freedman的应用统计的第一堂课。第一次上课前的几天,他给选课的学生发了封邮件,告诉大家在第一次上课之前要读三篇文章。大家都是好学生嘛,虽然文章加起来一百多页,大家也都在课前认真地读了(至少认为好好读了)。

photoNormal

记得当时课程是在埃文斯大楼的十楼小会议厅里进行,这个小厅的窗外景色还真是让人心旷神怡。在 David 介绍了一下课程结构和一些相关安排后,我们就进入了正题:文章讨论。他平静地坐在椅子上问,“大家有什么的问题? ” 然后,然后就没有然后了……

沉默,沉默,然后更长的沉默。我们没想到,讨论是需要我们发起,而不只是参与讨论 。过了一会他又问, “对文章有什么问题? ” 我们就坐在那里超过十分钟,不断地把论文翻来翻去试图找到一个有意义的问题来问。如果我们不问任何问题,好像我们就永远坐在那里。感觉这是我记忆中最长的十多分钟。这时谁也没有心情来欣赏窗外的美景了。

6815420787_350f31f3f8_z

继续阅读[朝花夕拾] 从学习数学公式到实践统计分析

希格斯玻色子与5σ

本文转自施涛博客,原文链接请点击此处

2012年7月4日,欧洲核子研究组织(CERN, the European Organization for Nuclear Research)的物理学家们宣布发现在欧洲大型强子对撞机中一种疑似希格斯玻色子(Higgs Boson)。

[抄自wikipedia]:希格斯玻色子是粒子物理學的标准模型所预言的一种基本粒子。标准模型预言了62种基本粒子,希格斯玻色子是最后一种有待被实验证实的粒子。在希格斯玻色子是以物理学者彼得·希格斯命名。由于它对于基本粒子的基础性质扮演极为重要的角色,因此在大众传媒中又被称为「上帝粒子」

作为只有高中物理水平的民科,我也能从物理学家们在宣布这发现时的激动(看下面视频)中感到这发现的重大。

另外,推荐对数据分析有兴趣的听一下这神粒子的声音(Listen to the decay of a god particle)。一群粒子物理学家,编曲家,软件工程师,和艺术家用粒子对撞机的数据编成的曲目。另类的数据展示,太强大了!

除了表达对科学家的敬仰外,我也对其中提到的 5$\sigma$ 很感兴趣。既然祖师爷John Tukey说过

The best thing about being a statistician is that you get to play in everyone’s backyard,

我倍受鼓励的来看看这 5$\sigma$ 到底是怎么回事。视频中的点睛之笔:

We have observed a new boson with a mass of 125.3 +- 0.6 GeV at 4.9 σ significance.

念玩后大家鼓掌拥抱,热泪盈眶。一番周折后,我才终于找到了CERN的 原版视频(将近两小时,值得看看)。

开始时只是想搞清楚这 5$\sigma $怎么回事(35:10,第84页),没想到听到一堆统计词汇“multivariate analysis technique”,“p-value”,”sensitivity”, 等等劈头盖脸的飞来。最给力的是 Rolf Heuer 讲了一些用Boosted decision tree来提高分类器准确性的过程(18:20,第33页)。不出所料,研究中用到了很前沿的数据分析方法。老祖师果然没错。看来欲知其中细节,得看数据分析啊!

比较遗憾的是我比较看不懂的是环球科学(科学美国人中文版)的文章 “希格斯粒子现身LHC?”最后对 5$\sigma$ 的解释:

估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用$\alpha$表示。1-$\alpha$ 为置信度或置信水平,其表明了区间估计的可靠性。显著性水平不是一个固定不变的数字,其越大,则原假设被拒绝的可能性愈大,文章中置信度为5$\sigma$(5个标准误差),说明原假设的可信程度达到了99.99997%。

好像这是把假设检验和置信区间绞在一起解释了。本来看了视频还我还觉着我这物理外行也看懂了,现在又被解释糊涂了。谁能看懂给解释一下?