作者专栏

Think SAS(一)

By 胡江堂 @ 2010/04/18
Think SAS(一)

为什么你应该学SAS?本文不想卷入SAS与R,或者与SPSS、S-Plus、Matlab等统计软件孰优孰劣的争论中去,我是说,作为一个有志于投身工业界的统计分析人员,你为什么应该把SAS纳入你的分析工具箱?这会是一篇动员贴,尤其是对广大对数据分析感兴趣的在校生。在默认统计编程语言是R的“统计之都”,我需要拿上面这幅图来吸引眼球:学SAS吧。 R是好东西,不只是在COS,现在全世界的统计系和统计学生当中,R是主导性的学术语言。但不妙的是,国内高校学生中,学SAS的明显少了,医药、金融等行业经常苦于招不到合适的SAS程序员。在统计分析领域,SAS是主导性的工业语言,它与R,不应该是此消彼长的关系。工业界与学院的隔膜,现在我感觉是非常明显。下面讲的就是,关于SAS,我们在学院可能不太关注的事实。
阅读全文 »

Tags: , , , , , , , , , , , , , ,
Posted in 应用领域, 数据分析, 生物与医学统计, 统计软件, 行业观察 | 91 Comments »

我的求学之路:经济学、软件工程、SAS

By 胡江堂 @ 2009/08/09

这个青年的经历,只代表他个人,没有任何群体的意义。 我想写下一段自白,这自白既是我个人的,也具有普遍意义,因为一个人经历过的事情所有的人都可以经历。 /*跟武汉博文视点合作,召集些身边的朋友,2009应届生,计算机背景,在毕业之前,讲讲自己求学、实习、找工作等的经历与感悟,文章将由电子工业出版社结集出版,在今天秋季学期开学之前出来。我是主编,也是作者之一,刚好经历跟大伙有重叠:经济学、软件工程、SAS、统计学、数据挖掘,文章贴出来,大伙多拍砖头。文中我提到COS,COS让我长见识,又结识不少好朋友。*/ 想启蒙至今,我的学习重心从文史哲转到经济学,最后以软件工程收场;在行业方面,在一家软件公司实习了一年多,找工作以药厂收场——用一个朋友的话讲,“背景是复杂得一塌糊涂”。虽然我常以“学一行,爱一行;做一行,爱一行”自勉,有时也不免回首,想想以前经历过的所有分岔口,玩味些那些没有走过的路,无论当时我多么坚决或者犹豫,一条路被选中,然后一路曲折至今。很多事情,很多选择,可能只有以后才能适合评说,现在我选择把它们记下来,在这么一个时点,我就要毕业,我有一个安身立命的去处,我有规划,但我不知道以后生活会给我什么样的分岔口,就跟我以前遭遇的一样。 ——————我的人生轨迹————— 项羽,“学书不成,去;学剑,又不成”。 —-《史记·项羽本纪 1.高中:文科生,喜文史 | |高考 / \ / \ 学文史不成,去 2.经济学,北京工商大学 |考研 / \ / \ 学经济学不成,去 3.软件工程(金融信息工程),北京大学 | 知识转型 / \ / \ 学C/C++、Java不成,去 攻SAS与信用评分、数据挖掘 | |实习 / \ / \ 4.SAS中国研发中心 |工作 / \ / \ / \ 5. Sanofi Pasteur,SAS程序员 ——————我的人生轨迹—————
阅读全文 »

Tags: , , , , , , , , ,
Posted in 推荐文章, 数据挖掘与机器学习, 生物与医学统计, 经济学, 统计软件, 行业观察 | 31 Comments »

分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain

By 胡江堂 @ 2009/02/18
分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain

书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集: 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵 分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
阅读全文 »

Tags: , , , , , , , , , , ,
Posted in 数据挖掘与机器学习, 统计图形 | 7 Comments »

R与SAS之争:一个导读

By 胡江堂 @ 2009/01/13

现在R与SAS社区里,最热闹的大概是源于《纽约时报》的一篇文章而引发的R与SAS之争。 2009年1月7号,《纽约时报》科技版登了一篇注定要引起四方瞩目的文章, Data Analysts Captivated by R's Power(1月6号就有网络版),作者是该报的记者Ashlee Vance。这大概是开源统计软件包R,自1996年诞生以来,第一次出现在公众视野,而且是出现在《纽约时报》这样的主流媒体。
阅读全文 »

Tags: , , , , ,
Posted in 推荐文章, 统计软件 | 28 Comments »

分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC

By 胡江堂 @ 2008/12/31
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC

ROC 上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看): Sensitivity(覆盖率,True Positive Rate) 1-Specificity (Specificity, 负例的覆盖率,True Negative Rate)
阅读全文 »

Tags: , , , , , , , , , , , , , ,
Posted in 数据挖掘与机器学习, 生物与医学统计, 统计图形 | 11 Comments »

分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

By 胡江堂 @ 2008/12/25
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样的机械解释中,不敢多说一句,就怕哪里说错。本文就试图用一个统一的例子(SAS Logistic回归),从实际应用而不是理论研究的角度,对以上提到的各个评估指标逐一点评,并力图表明: 这些评估指标,都是可以用白话(plain English, 普通话)解释清楚的; 它们是可以手算出来的,看到各种软件包输出结果,并不是一个无法探究的“黑箱”; 它们是相关的。你了解一个,就很容易了解另外一个。 本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始,它最简单,而且是大多数指标的基础。
阅读全文 »

Tags: , , , , , , , , ,
Posted in 数据挖掘与机器学习, 生物与医学统计, 统计软件 | 16 Comments »

P-value:一个注脚

By 胡江堂 @ 2008/12/08

郑冰刚提到P值,说P值的定义(着重号是笔者加的,英文是从WikiPedia摘来的): P值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。 The P-value is the probability of obtaining a result at least as extreme as the one that was actually observed, given that the null hypothesis is true. 以下延续白话系列,解释一下,“什么是P值,什么是极端”,算是郑文的一个长长的注脚。
阅读全文 »

Tags: , , , , , , ,
Posted in 基础统计, 概率论与数理统计 | 10 Comments »

决策与风险

By 胡江堂 @ 2008/12/03

/*读书笔记,白话统计系列,力图用普通话讲述统计学的基本概念。这里的题目是“决策与风险”,讲的就是两类错误(type I and type II errors)。以下改编至维恩堡《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986),英文名叫Statistics: An Intuitive Approach By George H. Weinberg and John Abraham Schumaker。这书几近绝迹,当回文抄公,以期重见天日。*/
阅读全文 »

Tags: , , , , , , , , , , , ,
Posted in 基础统计, 概率论与数理统计 | 8 Comments »

用Windows Live Writer发布博客到cos.name

By 胡江堂 @ 2008/11/27

本文用Windows Live Writer发布。Windows Live Writer是一款离线博客写作工具,刚才益辉大人开通了cos.name的远程发布功能,以后感兴趣的朋友就可以离线发布博客到cos.name了。一个简单教程,可以参见这里。 Technorati Tags: Windows Live Writer,wordpress,cos.name
阅读全文 »

Tags: , ,
Posted in 统计之都 | 9 Comments »

次贷冲击下的统计学反思

By 胡江堂 @ 2008/11/27

有点标题党的意思了,确切地说,本文只是一个小小的通讯稿。前两天(11月25-26)我参加一个“中国银行风险管理国际峰会2008”,其中SunGard公司的David M.Rowe博士的主题演讲Lessons from the Subprime Mortgage Crisis(次级按揭危机经验教训),第一条就是Limits of Statistical Analysis(统计分析的局限性)。Rowe先生是SunGard公司风险管理部门的高级副总裁,宾大计量经济学与金融学博士,沃顿商学院MBA,以及卡内基梅隆大学的经济学学士。 这次次贷危机,对外部评级机构如Moodys来说是一个丑闻,它们利用各种复杂的统计模型为各种证券评级。Rowe举一个例子,AAA级的债券,定义的年违约风险是0.01%,也就是说,其违约是每一万年发生一次,而最优良的次级房贷抵押债券,在外部评级机构的评分中,享有AAA甚至更高的评级。Rowe就问:在这样的评级中,实证研究何在? Rowe的总结是: Statistical analysis can extract information from data, it cannot create information not already contained in the data. Like water, information cannot rise higher than its soucre. 统计分析只能从数据中提取信息,而不能创造数据本身。正如联通器中的水,不能超越水源的高度。 最后,Rowe提到Nassim Nicholas Taleb的黑天鹅理论(Black Swan Theory),最近似乎很流行。一般认为天鹅是白的,但一旦发现天鹅也有黑的(的确是发现了),就会对人们的视野产生极大的冲击。黑天鹅理论就是讨论这些极少发生的、难以预测的,一旦发生,就会造成很大影响的事件。不知道统计系在读这本书没有。
阅读全文 »

Tags: , , , , , , , , ,
Posted in 基础统计 | 5 Comments »

搜索

推荐阅读

有边界区间上的核密度估计

一、一个例子
核密度估计应该是大家常用的一种非参数密度估计方法,从某种程度上来说它的性质比直方图更好,可以替代直方图来展示数据的密度分布。但是相信大家会经常遇到一个问题,那就是有些数据是严格大于或等…阅读全文 »

用R也能做精算—actuar包学习笔记(一)

By 李皞

本文是对R中精算学专用包actuar使用的一个简单教程。actuar项目开始于2005年,在2006年2月首次提供公开下载,其目的就是将一些常用的精算函数引入R系统。目前,提供的函数主要涉及风险理论,…阅读全文 »

分月存档