这个青年的经历,只代表他个人,没有任何群体的意义。
我想写下一段自白,这自白既是我个人的,也具有普遍意义,因为一个人经历过的事情所有的人都可以经历。
/*跟武汉博文视点合作,召集些身边的朋友,2009应届生,计算机背景,在毕业之前,讲讲自己求学、实习、找工作等的经历与感悟,文章将由电子工业出版社结集出版,在今天秋季学期开学之前出来。我是主编,也是作者之一,刚好经历跟大伙有重叠:经济学、软件工程、SAS、统计学、数据挖掘,文章贴出来,大伙多拍砖头。文中我提到COS,COS让我长见识,又结识不少好朋友。*/
想启蒙至今,我的学习重心从文史哲转到经济学,最后以软件工程收场;在行业方面,在一家软件公司实习了一年多,找工作以药厂收场——用一个朋友的话讲,“背景是复杂得一塌糊涂”。虽然我常以“学一行,爱一行;做一行,爱一行”自勉,有时也不免回首,想想以前经历过的所有分岔口,玩味些那些没有走过的路,无论当时我多么坚决或者犹豫,一条路被选中,然后一路曲折至今。很多事情,很多选择,可能只有以后才能适合评说,现在我选择把它们记下来,在这么一个时点,我就要毕业,我有一个安身立命的去处,我有规划,但我不知道以后生活会给我什么样的分岔口,就跟我以前遭遇的一样。
——————我的人生轨迹—————
项羽,“学书不成,去;学剑,又不成”。
—-《史记·项羽本纪
1.高中:文科生,喜文史
|
|高考
...
阅读全文 »
标签 ‘ SAS ’
我的求学之路:经济学、软件工程、SAS
分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain
书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
阅读全文 »
R与SAS之争:一个导读
现在R与SAS社区里,最热闹的大概是源于《纽约时报》的一篇文章而引发的R与SAS之争。
2009年1月7号,《纽约时报》科技版登了一篇注定要引起四方瞩目的文章, Data Analysts Captivated by R's Power(1月6号就有网络版),作者是该报的记者Ashlee Vance。这大概是开源统计软件包R,自1996年诞生以来,第一次出现在公众视野,而且是出现在《纽约时报》这样的主流媒体。
阅读全文 »
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
ROC
上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):
Sensitivity(覆盖率,True Positive Rate)
1-Specificity (Specificity, 负例的覆盖率,True Negative Rate)
阅读全文 »
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样的机械解释中,不敢多说一句,就怕哪里说错。本文就试图用一个统一的例子(SAS Logistic回归),从实际应用而不是理论研究的角度,对以上提到的各个评估指标逐一点评,并力图表明:
这些评估指标,都是可以用白话(plain English, 普通话)解释清楚的;
它们是可以手算出来的,看到各种软件包输出结果,并不是一个无法探究的“黑箱”;
它们是相关的。你了解一个,就很容易了解另外一个。
本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始,它最简单,而且是大多数指标的基础。
阅读全文 »
WinBUGS在统计分析中的应用(第二部分)
第一节 WinBUGS数据分析案例
在这一节中,我将拿一个经典的研究数据,利用WinBUGS给出简单的分析。首先介绍一下这个数据:Seeds
seed O. aegyptiaco 75 seed O. aegyptiaco 73 Bean Cucumber Bean Cucumber
r n r/n r n r/n r n r/n r n r/n
10 39 0.26 5 6 0.83 8 16 0.5 3 12 0.25
23 62 0.37 53 74 0.72 10 30 0.33 22 41 0.54
23 81 0.28 55 72 0.76 8 28 0.29 15...
阅读全文 »
P-value:一个注脚
郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的):
P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。
The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true.
以下延续白话系列,解释一下,“什么是P值,什么是极端”,算是郑文的一个长长的注脚。
阅读全文 »
刘重杰:和统计接触的经历
首次遇到益辉应该是在一个论坛上,讨论了各类专业统计软件的使用情况,就聊到了R。接着就开始到cos灌水,慢慢就认识了这个领域里面的很多朋友。而益辉等兄弟姐妹为在统计这个领域的推广“正确”方面实在是做出了极其有益处,乃至可以称为辉煌的工作。
我对统计学所知实在是业余水平。首先,我没系统正式的学过统计专业的课程;最多算一个自学者。其次,所从事的正式工作和职业中,和统计直接相关的几乎没有;最多只是擦边球式的“应用”了下统计技术和相应的软件。所以受邀而来,实在是汗颜。不过接触统计学倒是比较多,也足见这门学科的普遍和重要性。
阅读全文 »
统计学专业应该使用什么样的统计软件(写给在统计学院学习的学弟学妹之四)
过去两三年为院刊写了一些稿件,其中一部分是统计技术层面的,一部分是方法论和原则层面的,姑且作为对低年级统计学子们的一些学习建议,目的在于让大家学会擦亮自己的眼睛,辨明统计学的是与非。文章观点仅为一家之言,而且大多数情况下这些观点相对于流行的、教科书式的观点可能有显著差异,因此请各位小心阅读。
这次要求我写一篇关于统计软件的介绍,我想我也没这个本事去介绍所有的软件,因此私自把主题改成了“统计学专业应该使用什么样的统计软件”,窃以为这样写更有意义,不然这篇文章就变成了死板的统计软件使用手册。
关于统计软件,随着时间的推移,我最终以R语言为中心,基本废弃了其它工具的学习,换句话说,其它统计工具对我来说作用有限,不符合本人的统计分析思想和使用习惯。长话短说,本文的摘要为三个字:用R吧!
阅读全文 »
