<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>统计之都 &#187; 学习经历</title>
	<atom:link href="http://cos.name/tag/%e5%ad%a6%e4%b9%a0%e7%bb%8f%e5%8e%86/feed/" rel="self" type="application/rss+xml" />
	<link>http://cos.name</link>
	<description>中国统计学门户网站，免费统计学服务平台</description>
	<lastBuildDate>Mon, 06 Sep 2010 01:21:28 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>统计学的领域（写给在统计学院学习的学弟学妹之一）</title>
		<link>http://cos.name/2008/11/domain-of-statistics-by-yihui/</link>
		<comments>http://cos.name/2008/11/domain-of-statistics-by-yihui/#comments</comments>
		<pubDate>Tue, 25 Nov 2008 11:19:43 +0000</pubDate>
		<dc:creator>谢益辉</dc:creator>
				<category><![CDATA[基础统计]]></category>
		<category><![CDATA[分析数据]]></category>
		<category><![CDATA[学习体会]]></category>
		<category><![CDATA[学习经历]]></category>
		<category><![CDATA[收集数据]]></category>
		<category><![CDATA[整理数据]]></category>
		<category><![CDATA[统计学]]></category>
		<category><![CDATA[表述数据]]></category>

		<guid isPermaLink="false">http://cos.name/?p=54</guid>
		<description><![CDATA[作者注：本文是为中国人民大学统计学院本科院刊所写的稿件。走过了四年本科，觉得应该对后来人讲一些负责任的话，以使大家能更高效地学习。我认为人生的奋斗，怕的不是没有动力，而是有动力却不知道方向。因此，我把我所了解的统计学的领域介绍给大家，让大家早日了解一下统计学的基本内容，早日找到自己的方向。当然，仅仅四年的学习，得出的观点或多或少会浅薄，所以也请各位大师多多指点批评。 如果学了几年统计，还连统计的那个经典定义都背不出就不应该了，在此我不再啰嗦一遍。统计学也不是什么神秘的学科，它的目的主要是通过数据探索信息，因此也就相应有一系列的流程：收集、整理、分析和表述（数据）。 按照这个流程，统计下属的众多学科的地位与作用也就一目了然。今日我取标题为“统计学的领域”，说实话这个题目有些狂妄。够资格写这种题目的人，恐怕至少应该在统计学界混过数十载。 不幸的是，本人一向提倡“人不猖狂枉少年”。如果没有足够的热情和斗志，是不可能取得一番成就的。正值青春年少，安能不立鸿鹄之志？此为题外话。 1、收集数据 一般来说，数据的来源无非是试验和调查。平时我们谈统计学似乎不太注重数据的收集问题，然而试验设计和调查技术（包括抽样等）都是很有用的学问。就我们这种纯粹的统计学院来说，试验设计的地位似乎不太高，而我所了解的生物统计、医学统计等领域对它的要求却特别高，有志于生物医学统计方向的同学一定要注意研究这门课，有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的，方差分析一般则是试验设计之后最基本的统计分析方法；对于调查，一方面它是由统计学的理论作背景支撑的（大数定律、数理统计、抽样理论等），另一方面涉及到实务操作方面的技术，做过调查的同学应该都了解调查的“艰辛”，当然如果有统计学的指导，我们也会发现一些让人变聪明的技术，举个例子，对于吸毒问题，受众（调查客体）一般都会低报（不愿意告诉访员自己吸毒），对于这种情况我们该怎么处理？暂且把悬念留在这里；如果事先不知道答案，恐怕是很难想象这件事情与抛硬币有任何瓜葛的。 对于我们这个统计学院（素以经济统计强势著称），从收集数据角度来说，国民经济核算与经济社会统计也是两门比较重要的课程，搞经济统计不能不对于经济数据的来龙去脉了如指掌，要不然统计指标都是从何计算而来有何意义都搞不清楚，还从何谈起经济统计？ 2、整理数据 数据不是说收集上来就可以马上作分析，有实践经验的人都知道，在收集数据的过程中，总会有各种意想不到的情况发生，但也是天要下雨娘要嫁人没办法的事情，你总不能把那些在问卷上偷懒空着不填或者乱填一气的同志们抓来严刑拷打。在此我有必要提醒各位，一定要做好心理准备，无论你们在学校里老师教授给你们多完美的理论，到现实中往往会四处碰壁的。空着调查项目不填写的我们称之为缺失值（Missing Value），胡乱填写的可能成为离群点或野值（Outlier），对于这样的数据，我们应该事先做一些处理才能进行下一步的统计分析，不然会对统计结果产生一些不良影响，这些道理用脚趾头想想就能明白（都用不着用膝盖想）。当然数据的整理还包括很多其它内容，诸如重新编码（Recode）或者进行某种综合计算等等，这里不详谈，因为都是很陈旧的内容了。我想把我所知道的统计学中比较近代的技术介绍给大家，让大家对我们的前沿知识有所了解。关于确实值的处理，目前已经发展起来比较完备的插补技术（Imputation），这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EM算法、Bootstrap、Jackknife、MCMC（Monte-Carlo Markov Chain）等知识。相信如果大家看看近代现代统计学的发展，这些名词一定不会陌生。对于数据中的离群点，也要先思考一下，不要轻易删除，一个穷山村中冒出一个大富翁的可能性不一定就是0，在离群点中反而有可能隐藏对我们有启发的信息（比如一位同学的学分绩太高以至于成了“野值”，我们就不能把他/她从班里“删除”，而应该借鉴学习经验）。 3、分析数据 不可否认，当今社会对于统计的需求，大部分都在于这一块。数理统计的纸老虎会让很多数学功底不好的同志望而却步，再加上统计中众多术语如P值、置信区间、卡方统计量等又会让很多人觉得费解（曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白，我疯了），如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的，他们更是会云里雾里找不着北，然而来自统计分析的打击似乎是无穷尽的，他们最后发现统计软件也不太会用，要花很多钱购买，更可怕的还都是英文的……我琢磨着，他们一定心想，苍天呐，如果还有来生，我……一定要学统计…… 作为统计人也不要太得意，首先统计分析方法你不一定会用，其次即使你会用也未必能用对地方。这个领域我几乎已经无法介绍，因为数百年的发展，让统计方法扩充得让人很难概括全面了。最简单的分类莫过于描述统计与推断统计了；描述统计大家应该都懂，数据是什么就是什么，在原始数据的基础上稍作加工，提炼一下信息，让人对一个数据集（样本）在心中有一个大致的了解，比如一国的GDP，国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱，等等，而是公布一个总数，让大家对我国的国力有大致的了解；推断统计就需要用到一些比较精深的统计理论了，最重要的支撑莫过于数理统计，所以这门课大家也一定要学好，要知道相比起数学系的数学课，数理统计根本就没什么难度。推断统计中，根据是否需要参数假设又可以分为参数统计和非参数统计，后者出现的年代要晚，因此在理论和应用方面可能不如前者，二者的比较又足以写一大篇文章，此处作罢，但是无论如何，从参数统计到非参数统计，你的统计思维必将经历一个重大转变，如果学得够深入，你甚至可以由此联想人生得失问题；不是和大家开玩笑，有时候统计确实能为我们展现一种人生观。 相关名的词恐怕也不是一两页纸能列举完的：相关分析（包括典型相关分析）、回归分析（包括投影寻踪回归、分位数回归）、对应分析、信度分析、生存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。如果你至今还只知道普通最小二乘法（OLS）而不知道偏最小二乘法（PLS）这样的名词，那只能说明你还在一个古董世界徘徊，需要加把劲了。 关于数据分析方法，当然首先要打好基础，掌握那些基本方法，若想在方法领域有所造诣，那么请回家把概率论与数理统计多翻几遍，然后开始啃国外的教材以及文章。我常常遇到这种情况，就是一种方法，我看国外最早的论文是二十世纪六七十年代的，而国内最早的论文则往往已经是二十一世纪了。可以看出，国内在方法上的研究与国外的差距有多大。聪明人会从这里发现一个“市场”，我就不诱导大家了，这对于国内统计学的长远发展不太有利。 还有一点，也是要提醒大家切记，统计分析方法往往都有理论假设或前提，在实际应用时，务必务必要注意！首先要检查数据是否满足我们的理论条件，不要拿来就作分析，即使统计软件会“不假思索”地给你输出漂亮的结果。（统计软件有时候挺害人的，不要完全相信它们） 4、表述数据 我认为世上不存在不懒的人，因此数据的表述一定也是一门学问。你要是把统计软件输出的P值活生生拿给别人看，八成会被殴；你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小，被扁的概率将一致趋近于1。 统计是用来说明问题的，不是用来吓唬人的。把我们的分析结果表述给人家看，就需要经过一定的“转化”。不要轻视数据的表述问题，有些统计方法之所以能“红”起来，就是因为人们为它的分析结果找到了巧妙的解释。 上面说的是统计学方面的表述，外观形式方面的问题同样应该注意。表格中的数据不使用右对齐（或小数点对齐）、图形画得花里胡哨或土里土气，都会让统计的功效受损，虽然只是“面子问题”。学了那么长时间的统计，不应该不知道图的标题应该写在图下方而表的标题应该写在表上方，平时看文章多注意别人是怎样表达的。 好了，统计学本身就从流程上介绍到这里。稍微再谈谈我所见到的统计学发展趋势：一方面是学科结合的趋势，单单只会一门统计学恐已难以立足，统计学的发展动力，越来越多地来自于其它各个学科，若不是这些学科给统计学“出难题”，统计学的发展可能早已经停止了，医学会问你，怎样设计试验既能得出显著的统计结果又能节约成本？心理学会问你，人的情商是一个隐变量，应该怎样测量？金融学会问你，股票市场上时序数据的异方差怎样处理？市场营销学会问你，怎样从超市的海量数据中挖掘出有用的商品信息？法学会问你，某甲杀人的概率有多大？新闻传播学会问你，大众对某位候选者的真实支持率有多高？等等……；另一方面是计算机的广泛应用趋势，我也要特别强调，计算机在未来的统计中必将扮演越来越重要的角色，想要摇着笔杆子去追赶奔四3.2绝对是不可能了，计算机方面又尤其要数编程能力最重要，这番话是对那些想冲到统计时代前沿的同学们说的，统计方法的发展太快，以至于很多统计软件都跟不上，因此，若自己掌握计算机编程技术的话就能不必受到统计软件的制约。 我在中国人民大学统计学院已经学习了四年，感触颇多，牢骚也不少。生活方面不多说，大家最好早点学会自强自立，早已经过了18岁，有空听听郑智化的《水手》。 学习方面说这样几点吧： 首先，不要指望你的老师会教给你所有的知识，同时也要明白你所学的知识是很不全面的。大学与高中不一样，这里不是一个纯粹的教学的地方，更多地是思想碰撞交流的地方。如果到现在你还在上课时埋头认真地把老师说的每一个字记下来，那么你可能还没理解什么叫大学。统计学纷繁芜杂的体系，不是老师在几节课上能讲出来的。老师可以告诉你，统计学都有什么内容，剩下的就是你自己多多努力奋斗。 其次，攻书莫畏难。可能这也是大学与高中的区别之一，高中某一道题不会做可能会影响你的考试成绩，而大学则不是用来为难人的地方。此路不通可以走彼路，你若不擅长积分，那么对于书中证明用到积分的地方大可不必仔细看，总之要有自己擅长的地方，然后注意培养自己的优势，以最快的速度向前发展。不过话说回来，不要被我误导，我不是说可以随意放弃一些课程，基础仍然是要打好的，在这个条件下，你可以选择自己擅长的方向发展。 再次，不要忽视图书馆的丰富资源，不仅包括图书，而且还有大量电子资源，注意上网看看，学校都购买了大量的论文数据库，不用实在可惜了。里面的统计刊物可以趁早接触一些，对于论文写作以及知识面的拓展是很有好处的。 最后，不要惧怕高年级的学长们，他们都知道吃人是犯法的，因此大可放心去请教、取经，让自己少走一些弯路。只可惜，当年没有学长对我这样说，以至于我一直惧怕学长会吃了我…… 还有，一定要用好英语。（我可没告诉你们要考好英语） 以及，不要没日没夜地上自习。（当然也别像我从不上自习） 对了，上网别总聊QQ，以后发财了有的是时间聊，现在有空多来我们的“统计之都”网站看看：http://cos.name 一死生为虚诞，齐彭殇为妄作。各位加油。 谢益辉 2006-10-07 相关文章统计学专业应该使用什么样的统计软件（写给在统计学院学习的学弟学妹之四） (37)如何学习统计学，或我的学习之路——初学者写给初学者 (8)我的求学之路：经济学、软件工程、SAS (31)刘重杰：和统计接触的经历 (4)统计学的历史与今天 (1)最新评论doudou : 引用"最后，不要惧怕高年级的学长们，他们都知道吃人是犯法的，因此大可放心去请教、取经，让自己少走一些... haha999 : 偶然路过，看过，觉得很有意思。虽然本人不是学统计学的，但是现在对统计学有点兴趣了，特别赞同“统计是用... 谢益辉 : 你可以参考“维基百科因子分析页面”。 多多 : 我想请教各位，有谁知道因子分析的详细发展历史过程？感激不尽！ 小学生 : 这篇文章感触很大，因为本人不是专业学统计的，对里面的很多知识还有待补充学习，但是大侠建议上网少料聊天...]]></description>
			<content:encoded><![CDATA[<p><span style="color: #808080;"><strong>作者注</strong>：本文是为中国人民大学统计学院本科院刊所写的稿件。走过了四年本科，觉得应该对后来人讲一些负责任的话，以使大家能更高效地学习。我认为人生的奋斗，怕的不是没有动力，而是有动力却不知道方向。因此，我把我所了解的统计学的领域介绍给大家，让大家早日了解一下统计学的基本内容，早日找到自己的方向。当然，仅仅四年的学习，得出的观点或多或少会浅薄，所以也请各位大师多多指点批评。</span></p>
<p>如果学了几年统计，还连统计的那个经典定义都背不出就不应该了，在此我不再啰嗦一遍。统计学也不是什么神秘的学科，它的目的主要是通过数据探索信息，因此也就相应有一系列的流程：收集、整理、分析和表述（数据）。<span id="more-54"></span></p>
<p>按照这个流程，统计下属的众多学科的地位与作用也就一目了然。今日我取标题为“统计学的领域”，说实话这个题目有些狂妄。够资格写这种题目的人，恐怕至少应该在统计学界混过数十载。</p>
<p>不幸的是，本人一向提倡“人不猖狂枉少年”。如果没有足够的热情和斗志，是不可能取得一番成就的。正值青春年少，安能不立鸿鹄之志？此为题外话。</p>
<h1>1、收集数据</h1>
<p>一般来说，数据的来源无非是试验和调查。平时我们谈统计学似乎不太注重数据的收集问题，然而试验设计和调查技术（包括抽样等）都是很有用的学问。就我们这种纯粹的统计学院来说，试验设计的地位似乎不太高，而我所了解的生物统计、医学统计等领域对它的要求却特别高，有志于生物医学统计方向的同学一定要注意研究这门课，有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的，方差分析一般则是试验设计之后最基本的统计分析方法；对于调查，一方面它是由统计学的理论作背景支撑的（大数定律、数理统计、抽样理论等），另一方面涉及到实务操作方面的技术，做过调查的同学应该都了解调查的“艰辛”，当然如果有统计学的指导，我们也会发现一些让人变聪明的技术，举个例子，对于吸毒问题，受众（调查客体）一般都会低报（不愿意告诉访员自己吸毒），对于这种情况我们该怎么处理？暂且把悬念留在这里；如果事先不知道答案，恐怕是很难想象这件事情与抛硬币有任何瓜葛的。</p>
<p>对于我们这个统计学院（素以经济统计强势著称），从收集数据角度来说，国民经济核算与经济社会统计也是两门比较重要的课程，搞经济统计不能不对于经济数据的来龙去脉了如指掌，要不然统计指标都是从何计算而来有何意义都搞不清楚，还从何谈起经济统计？</p>
<h1>2、整理数据</h1>
<p>数据不是说收集上来就可以马上作分析，有实践经验的人都知道，在收集数据的过程中，总会有各种意想不到的情况发生，但也是天要下雨娘要嫁人没办法的事情，你总不能把那些在问卷上偷懒空着不填或者乱填一气的同志们抓来严刑拷打。在此我有必要提醒各位，一定要做好心理准备，无论你们在学校里老师教授给你们多完美的理论，到现实中往往会四处碰壁的。空着调查项目不填写的我们称之为缺失值（Missing Value），胡乱填写的可能成为离群点或野值（Outlier），对于这样的数据，我们应该事先做一些处理才能进行下一步的统计分析，不然会对统计结果产生一些不良影响，这些道理用脚趾头想想就能明白（都用不着用膝盖想）。当然数据的整理还包括很多其它内容，诸如重新编码（Recode）或者进行某种综合计算等等，这里不详谈，因为都是很陈旧的内容了。我想把我所知道的统计学中比较近代的技术介绍给大家，让大家对我们的前沿知识有所了解。关于确实值的处理，目前已经发展起来比较完备的插补技术（Imputation），这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EM算法、Bootstrap、Jackknife、MCMC（Monte-Carlo Markov Chain）等知识。相信如果大家看看近代现代统计学的发展，这些名词一定不会陌生。对于数据中的离群点，也要先思考一下，不要轻易删除，一个穷山村中冒出一个大富翁的可能性不一定就是0，在离群点中反而有可能隐藏对我们有启发的信息（比如一位同学的学分绩太高以至于成了“野值”，我们就不能把他/她从班里“删除”，而应该借鉴学习经验）。</p>
<h1>3、分析数据</h1>
<p>不可否认，当今社会对于统计的需求，大部分都在于这一块。数理统计的纸老虎会让很多数学功底不好的同志望而却步，再加上统计中众多术语如P值、置信区间、卡方统计量等又会让很多人觉得费解（曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白，我疯了），如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的，他们更是会云里雾里找不着北，然而来自统计分析的打击似乎是无穷尽的，他们最后发现统计软件也不太会用，要花很多钱购买，更可怕的还都是英文的……我琢磨着，他们一定心想，苍天呐，如果还有来生，我……一定要学统计……</p>
<p>作为统计人也不要太得意，首先统计分析方法你不一定会用，其次即使你会用也未必能用对地方。这个领域我几乎已经无法介绍，因为数百年的发展，让统计方法扩充得让人很难概括全面了。最简单的分类莫过于描述统计与推断统计了；描述统计大家应该都懂，数据是什么就是什么，在原始数据的基础上稍作加工，提炼一下信息，让人对一个数据集（样本）在心中有一个大致的了解，比如一国的GDP，国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱，等等，而是公布一个总数，让大家对我国的国力有大致的了解；推断统计就需要用到一些比较精深的统计理论了，最重要的支撑莫过于数理统计，所以这门课大家也一定要学好，要知道相比起数学系的数学课，数理统计根本就没什么难度。推断统计中，根据是否需要参数假设又可以分为参数统计和非参数统计，后者出现的年代要晚，因此在理论和应用方面可能不如前者，二者的比较又足以写一大篇文章，此处作罢，但是无论如何，从参数统计到非参数统计，你的统计思维必将经历一个重大转变，如果学得够深入，你甚至可以由此联想人生得失问题；不是和大家开玩笑，有时候统计确实能为我们展现一种人生观。</p>
<p>相关名的词恐怕也不是一两页纸能列举完的：相关分析（包括典型相关分析）、回归分析（包括投影寻踪回归、分位数回归）、对应分析、信度分析、生存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。如果你至今还只知道普通最小二乘法（OLS）而不知道偏最小二乘法（PLS）这样的名词，那只能说明你还在一个古董世界徘徊，需要加把劲了。</p>
<p>关于数据分析方法，当然首先要打好基础，掌握那些基本方法，若想在方法领域有所造诣，那么请回家把概率论与数理统计多翻几遍，然后开始啃国外的教材以及文章。我常常遇到这种情况，就是一种方法，我看国外最早的论文是二十世纪六七十年代的，而国内最早的论文则往往已经是二十一世纪了。可以看出，国内在方法上的研究与国外的差距有多大。聪明人会从这里发现一个“市场”，我就不诱导大家了，这对于国内统计学的长远发展不太有利。</p>
<p>还有一点，也是要提醒大家切记，统计分析方法往往都有理论假设或前提，在实际应用时，务必务必要注意！首先要检查数据是否满足我们的理论条件，不要拿来就作分析，即使统计软件会“不假思索”地给你输出漂亮的结果。（统计软件有时候挺害人的，不要完全相信它们）</p>
<h1>4、表述数据</h1>
<p>我认为世上不存在不懒的人，因此数据的表述一定也是一门学问。你要是把统计软件输出的P值活生生拿给别人看，八成会被殴；你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小，被扁的概率将一致趋近于1。</p>
<p>统计是用来说明问题的，不是用来吓唬人的。把我们的分析结果表述给人家看，就需要经过一定的“转化”。不要轻视数据的表述问题，有些统计方法之所以能“红”起来，就是因为人们为它的分析结果找到了巧妙的解释。</p>
<p>上面说的是统计学方面的表述，外观形式方面的问题同样应该注意。表格中的数据不使用右对齐（或小数点对齐）、图形画得花里胡哨或土里土气，都会让统计的功效受损，虽然只是“面子问题”。学了那么长时间的统计，不应该不知道图的标题应该写在图下方而表的标题应该写在表上方，平时看文章多注意别人是怎样表达的。</p>
<p>好了，统计学本身就从流程上介绍到这里。稍微再谈谈我所见到的统计学发展趋势：一方面是学科结合的趋势，单单只会一门统计学恐已难以立足，统计学的发展动力，越来越多地来自于其它各个学科，若不是这些学科给统计学“出难题”，统计学的发展可能早已经停止了，医学会问你，怎样设计试验既能得出显著的统计结果又能节约成本？心理学会问你，人的情商是一个隐变量，应该怎样测量？金融学会问你，股票市场上时序数据的异方差怎样处理？市场营销学会问你，怎样从超市的海量数据中挖掘出有用的商品信息？法学会问你，某甲杀人的概率有多大？新闻传播学会问你，大众对某位候选者的真实支持率有多高？等等……；另一方面是计算机的广泛应用趋势，我也要特别强调，计算机在未来的统计中必将扮演越来越重要的角色，想要摇着笔杆子去追赶奔四3.2绝对是不可能了，计算机方面又尤其要数编程能力最重要，这番话是对那些想冲到统计时代前沿的同学们说的，统计方法的发展太快，以至于很多统计软件都跟不上，因此，若自己掌握计算机编程技术的话就能不必受到统计软件的制约。</p>
<p>我在中国人民大学统计学院已经学习了四年，感触颇多，牢骚也不少。生活方面不多说，大家最好早点学会自强自立，早已经过了18岁，有空听听郑智化的《水手》。</p>
<p>学习方面说这样几点吧：</p>
<p>首先，不要指望你的老师会教给你所有的知识，同时也要明白你所学的知识是很不全面的。大学与高中不一样，这里不是一个纯粹的教学的地方，更多地是思想碰撞交流的地方。如果到现在你还在上课时埋头认真地把老师说的每一个字记下来，那么你可能还没理解什么叫大学。统计学纷繁芜杂的体系，不是老师在几节课上能讲出来的。老师可以告诉你，统计学都有什么内容，剩下的就是你自己多多努力奋斗。</p>
<p>其次，攻书莫畏难。可能这也是大学与高中的区别之一，高中某一道题不会做可能会影响你的考试成绩，而大学则不是用来为难人的地方。此路不通可以走彼路，你若不擅长积分，那么对于书中证明用到积分的地方大可不必仔细看，总之要有自己擅长的地方，然后注意培养自己的优势，以最快的速度向前发展。不过话说回来，不要被我误导，我不是说可以随意放弃一些课程，基础仍然是要打好的，在这个条件下，你可以选择自己擅长的方向发展。</p>
<p>再次，不要忽视图书馆的丰富资源，不仅包括图书，而且还有大量电子资源，注意上网看看，学校都购买了大量的论文数据库，不用实在可惜了。里面的统计刊物可以趁早接触一些，对于论文写作以及知识面的拓展是很有好处的。</p>
<p>最后，不要惧怕高年级的学长们，他们都知道吃人是犯法的，因此大可放心去请教、取经，让自己少走一些弯路。只可惜，当年没有学长对我这样说，以至于我一直惧怕学长会吃了我……</p>
<p>还有，一定要用好英语。（我可没告诉你们要考好英语）</p>
<p>以及，不要没日没夜地上自习。（当然也别像我从不上自习）</p>
<p>对了，上网别总聊QQ，以后发财了有的是时间聊，现在有空多来我们的“统计之都”网站看看：<a title="统计之都" href="http://cos.name" rel='nofollow'>http://cos.name</a></p>
<p>一死生为虚诞，齐彭殇为妄作。各位加油。</p>
<p>谢益辉<br />
2006-10-07</p>
<h3  class="related_post_title">相关文章</h3><ul class="related_post"><li><a href="http://cos.name/2008/11/which-statistical-software-should-we-use/" title="统计学专业应该使用什么样的统计软件（写给在统计学院学习的学弟学妹之四）">统计学专业应该使用什么样的统计软件（写给在统计学院学习的学弟学妹之四）</a> (37)</li><li><a href="http://cos.name/2008/11/how-to-learn-statistics-by-jthu/" title="如何学习统计学，或我的学习之路——初学者写给初学者">如何学习统计学，或我的学习之路——初学者写给初学者</a> (8)</li><li><a href="http://cos.name/2009/08/econ-software-sas/" title="我的求学之路：经济学、软件工程、SAS">我的求学之路：经济学、软件工程、SAS</a> (31)</li><li><a href="http://cos.name/2008/12/my-experience-with-statistics-by-chongjie-liu/" title="刘重杰：和统计接触的经历">刘重杰：和统计接触的经历</a> (4)</li><li><a href="http://cos.name/2008/11/statistics-history-and-today/" title="统计学的历史与今天">统计学的历史与今天</a> (1)</li></ul><h3>最新评论</h3><ul><li><a class="commentor" href="" >doudou</a> : <a class="comment_content" href="http://cos.name/2008/11/domain-of-statistics-by-yihui/#comment-1596" title="View the entire comment by doudou" >引用"最后，不要惧怕高年级的学长们，他们都知道吃人是犯法的，因此大可放心去请教、取经，让自己少走一些...</a></li>
<li><a class="commentor" href="" >haha999</a> : <a class="comment_content" href="http://cos.name/2008/11/domain-of-statistics-by-yihui/#comment-1421" title="View the entire comment by haha999" >偶然路过，看过，觉得很有意思。虽然本人不是学统计学的，但是现在对统计学有点兴趣了，特别赞同“统计是用...</a></li>
<li><a class="commentor" href="http://www.yihui.name" >谢益辉</a> : <a class="comment_content" href="http://cos.name/2008/11/domain-of-statistics-by-yihui/#comment-390" title="View the entire comment by 谢益辉" >你可以参考“维基百科因子分析页面”。</a></li>
<li><a class="commentor" href="" >多多</a> : <a class="comment_content" href="http://cos.name/2008/11/domain-of-statistics-by-yihui/#comment-389" title="View the entire comment by 多多" >我想请教各位，有谁知道因子分析的详细发展历史过程？感激不尽！</a></li>
<li><a class="commentor" href="" >小学生</a> : <a class="comment_content" href="http://cos.name/2008/11/domain-of-statistics-by-yihui/#comment-328" title="View the entire comment by 小学生" >这篇文章感触很大，因为本人不是专业学统计的，对里面的很多知识还有待补充学习，但是大侠建议上网少料聊天...</a></li>
</ul>]]></content:encoded>
			<wfw:commentRss>http://cos.name/2008/11/domain-of-statistics-by-yihui/feed/</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
		<item>
		<title>如何学习统计学，或我的学习之路——初学者写给初学者</title>
		<link>http://cos.name/2008/11/how-to-learn-statistics-by-jthu/</link>
		<comments>http://cos.name/2008/11/how-to-learn-statistics-by-jthu/#comments</comments>
		<pubDate>Mon, 24 Nov 2008 13:48:21 +0000</pubDate>
		<dc:creator>胡江堂</dc:creator>
				<category><![CDATA[基础统计]]></category>
		<category><![CDATA[推荐文章]]></category>
		<category><![CDATA[经济学]]></category>
		<category><![CDATA[统计软件]]></category>
		<category><![CDATA[EViews]]></category>
		<category><![CDATA[Excel]]></category>
		<category><![CDATA[MatLab]]></category>
		<category><![CDATA[SPSS]]></category>
		<category><![CDATA[TSP]]></category>
		<category><![CDATA[中心极限定理]]></category>
		<category><![CDATA[入门书籍]]></category>
		<category><![CDATA[学习经历]]></category>
		<category><![CDATA[直觉]]></category>
		<category><![CDATA[统计学]]></category>
		<category><![CDATA[统计工具]]></category>
		<category><![CDATA[计量经济学]]></category>

		<guid isPermaLink="false">http://cos.name/?p=36</guid>
		<description><![CDATA[（1）手算一次回归（为了了解计算细节并理解公式），大量手算就没有必要了；（2）以有趣的书入门；（3）用简单实用的分析而非刻意追求数学模型的复杂，关心数学公式背后的“直觉”；（4）用练习来培养对数据的敏感。]]></description>
			<content:encoded><![CDATA[<p><span style="color: #808080;"><strong>选编者谢益辉</strong>：很幸运刚好在COS博客开张之际江堂兄送来这篇文章，读完之后觉得写得很棒，于是迫不及待把它放在统计之都新站的开篇位置。江堂兄文字功夫很好，本文统计功夫介绍也很到位。我常认为，入门读物应该由非专业人士来写，这样学习体会才更加深刻，而科班五六年的统计学生，也许反倒深陷其中而不见庐山真面目。个人推荐之处有：（1）手算一次回归（为了了解计算细节并理解公式），大量手算就没有必要了；（2）以有趣的书入门；（3）用简单实用的分析而非刻意追求数学模型的复杂，关心数学公式背后的“直觉”；（4）用练习来培养对数据的敏感。本文版权归作者所有，请勿随意转载。作者联系方式：Jiangtang Hu &lt;jiangtanghu[at]gmail.com&gt;</span><span id="more-36"></span></p>
<p>可能学习和工作还有兴趣都跟统计沾些边，一些朋友和网友也问我些如何学习统计之类的问题，他们当然一样是非统计出身。结合自己的学习经历，这里一并回答了，也权当一个成长备忘录，所以这里取一个柏拉图“《智者篇》，或论正名，逻辑”式的标题。</p>
<p>先说说自己在统计方面的<strong>学习经历</strong>，相信很多非统计出身的朋友会有共鸣。我本科在北京工商大学念经济学，先后修过三门相关的课：</p>
<ol>
<li>统计学。其实应该叫做经济统计基础（很老套的学科了），因为除了描述性统计跟统计推断外，这课还包括大量关于经济指数编制等内容。当时我是凭着一只科学计算器完成所有的作业包括考试的，想想是很土。</li>
<li>计量经济学。这是经济系学生的主干课，我们天天跟着老师演算公式。这个比较恐怖，至少截止到期末考试的当天，我还记得二元线性回归的所有推导以及最终恐龙般的公式。这门课用的是授课老师编的教材，不值得推荐。当时为了记住一元跟二元回归的公式，我找到一本好像没多少人提到的书，一个叫白砂堤津耶的日本人写的《通过例题学习计量经济学》（人大出版社，2003）。这本书就是要让人手算各种计量模型，符号系统非常简洁，让要背公式考试的我省心不少。需要提一句的是，这本小书居然还提供了邹氏检验(Chow Test)的手算示例。<br />
我的第一门计量经济学课程就是这么落伍。现在想想，千般不好也有一个好处，就是让我手推跟手算过基本的线性回归模型，这些东西对我而言不再是黑箱。这门课的最后，老师介绍了一下计量经济学小软件TSP的用法，当时没跟着学下来。据师弟师妹反映，该老师的一位研究生教会老师使用Eviews，以后我们的计量老师就在课堂推广Eviews了，福音啊。</li>
<li>SPSS与统计分析。这是一门选修课。之前为了培养对统计的兴趣，自学过些用Excel分析数据，选修这门SPSS是想让自己的工具箱更为强大。这课学得比较积极，跟老师的关系也挺好。</li>
</ol>
<p>当时学习SPSS还有一个动力。2003年秋季学期我去北京大学经济研究中心（CCER）旁听计量经济学。比较幸运，教员是美国刘易斯-科拉克州立大学的计量经济学教授黄少敏。他刚好在北大访问，经济系七七级出来的。黄老师在课堂上推荐SPSS，并根据这次授课编了一本小书，叫《计量经济学入门》（北大出版社，2004）。那阵子还买了张文彤的两本SPSS书，大红版的《SPSS 11.0统计分析教程》（基础篇和高级篇，北京希望电子出版社，2002）。张当时是上海一个大学做医学统计的教授，在SPSS学习社区里很有名，现在好久没关注了。</p>
<p>本科时就大致如此了。还跟机械系的同学修过一门Matlab与系统仿真，仿真我不懂，就是图跟着学习一下Matlab，不过玩得不是很熟。SPSS很好上手，让我对数据有了不少信心。要捏着计算器面对一大堆数据，人都要疯的那种。</p>
<p>研究生期间我在北大念软件工程，金融信息工程方向，一样要跟数据打交道的专业。先是一门信用评分模型的课，让我自学起SAS。包括接下来一些数据挖掘应用的课程，我开始用SAS完成所有类似的数据分析工作。一般我们提到学SAS用SAS，说的大多是Base SAS或者再加上SAS/STAT，都是编程方式。现我在一家做数据挖掘与商务智能软件的公司实习，接触并学习了SAS产品的其他可视化模块，如Enterprise Guider、Enterprise Miner、JMP等等。这段时间，统计学的学习，包括多元分析时间序列等，都是通过去数学系旁听和自学。期间也尝试玩过R、S-Plus、Minitab之类，都是图个体验，没有认真学的意思。</p>
<p>回顾我的统计学习之旅，一个明显的特征就是统计软件一路同行。我的感受是，对于一个非统计出身的统计爱好者，不借助统计软件，几乎无法领略统计之妙——你没法通过推导公式研究算法而得到乐趣。跟各种软件打了这么多交道，另一个感触就是，过分依赖工具而忽略统计直觉可能是更为危险的事。这两条平行的观点，就构成了我对以下问题的建议：一个非统计出身的人，如何学习统计？</p>
<p>无论你从什么背景转到应用统计，通常的建议是<strong>找一本有趣的入门书</strong>，这个我觉得大多数国内引进的国外基础教材都不错，取一本而且只取一本学了就是。人大出版社引进的几本厚厚的统计学教材，给商学院学生准备的，突出的是应用，都是非常好的入门读物。商学院出来的学生，有一个好处，即使他们真的不懂数理统计，也不妨碍他们娴熟地运用统计模型向客户兜售观点，赢得单子。因该说，这是应用统计学教育的成功，尽管在统计学的（有意）误用方面，他们常受指摘。这里我熟一点的是安德森的《商务与经济统计》和林德的《商务与经济统计技术》，也有影印版，都多次重印的经典教材。这方面我走了不少弯路。本科时拿一本学校老师编的书上课，为了考试，还看得特别仔细，每道习题都做。想在想想，当时要是用这等精神攻读安德森或者林德的书，境界就不一样啦。现在也翻他们的书，做参考用，却不是以前苦读的劲头。这处女“读”，要献给谁，真是很重要。这跟读书一样，我没有师出名门，本科在北工商念，不敢说自己比北大本科的差，只想说，如果本科在北大念，我会表现更好。同样，如果你用院编教材，要达到安德森或林德的水平，你要付出更多的努力。幸运的是，在统计学习方面，你可以一开始就把自己的努力建立在一个较高的水平上：读安德森或林德。</p>
<p>去年年底，我翻出一本书来补自己的统计直觉，这部不推荐，是因为这书不好找了，只是个人喜欢，书也薄些，美国G.H.维恩堡等著的《数理统计初级教程》（常学将等译，太原：山西人民出版社，1986）。这本书的扉页，有位前读者题辞（在图书馆的书乱涂乱画啊）：“本书给你统计学的直觉。”这书我续借超期再借在续借，已近一年，感受是，这书在培养直觉直观方面，真是下足了功夫。美中不足的是，这个译本没有提到这本书的原名就叫做Statistics: An Intuitive Approach。</p>
<p>前面我好几处提到“<strong>直觉</strong>”。统计直觉我没资格发言，以前念经济学，隐隐约约能感觉到economic intuition这玩意。这东西不好说，却也能表达一二。跟大部分学科一样，经济学看着也能分成两个类型（接下来我还要强调它们不是对立的），一是专业期刊里充满恐龙级数学符号那种，另外就是白话散文那种。分析现实问题（不必是经济问题）时，也就相应两种思路，一是建立数学模型，二就是拿白话解释，偶尔再加一个简单的图表。这两种方式，白话看似容易些，但也容易流于胡说八道，就要为学院人士所不齿。数学的技术活多些，容易出成果，好拿诺贝尔经济学奖。由白话而成巨星的，我们称之为思想家，更是难能可贵，如诺奖得主科斯，主创产权和交易成本理论的。北大出来去芝加哥大学念经济学的王勇讲了一个好故事：</p>
<blockquote><p>中心的毕业生中，我大概是属于那种数理倾向比较严重的一类，对经济学中一个个美轮美奂的经典模型痴迷地有些“顽固不化”，要是在自己的论文里突然发现能用上一条在实变函数课上学到的定理会兴奋地跳起来，套用 Ariel Rubinstein教授在2004年国际计量经济学会主席演讲的最后一句话“这真是太美了！不是么？”</p>
<p>然而在芝大上了两年课以后，我才慢慢地更能体会到林老师在《论经济学方法》中提到的很多观点。在上一年级第一学期的课时，我就被深深地震动了。ECON301的价格理论I课的每周作业是Becker教授和 Murphy教授各出一道长题，题目中用文字交待一些经济学问题或者社会现象的背景知识，从恐怖主义到健康问题，从国际贸易到贩毒和住房问题，从投资到经济增长，什么都有，然后接二连三地问一堆问题。每个周二傍晚出题，当周周五上午交作业。我有生以来第一次为完成作业而熬夜就是第二次作业的那个周四。怎样分析这些现象，怎样回答这些问题，完全由自己选择分析方法，而我总想把问题抽象成一个严格的数学模型来求解，取怎么样的假设显然也得完全由自己定夺。可是经常是好不容易使建好的模型能回答第一个小问题a，突然发现很难再用这个模型来回答第二个小问题b，不是求不出解析解就是出现太多不合理的多重解。只好回头修改我的模型，然后不得不再另加一些技术性假设，当然需要再配上为何作如此取舍的经济学理由。如此反反复复，最终发现窗外已经发白，而自己却只能眼巴巴地望着求解问题f时出现的那12条非线性方程和12个未知变量，心灰意冷地继续写道“假定这个系统的解是存在的并且是唯一的，那么……”。我将近25页的作业发下来，10分我只得了3.7分，助教的批语是我采用的是科布—道格拉斯函数型的效用函数，而忽略了分析 non-homothetic 偏好这一重要情况。于是我“耿耿于怀”地去仔细对照那将近20页的标准答案。读完后我真的完全惊呆了：真没想到这么一个个二维平面分析图会那么厉害，所给的分析全是替代效应与收入效应的变相综合，所用的也全是诸如正常商品（normal goods）这样的通常假设，没有太“漂亮”的数学，但是在逻辑上分析的明显要比我的模型完整的多、严密的多、深入的多、也更加具有一般性。</p>
<p>——王勇：《两年后再读&lt;与林老师对话&gt;有感》<br />
<a href="http://time.dufe.edu.cn/experience/2007-11-25/264.html" target="_blank" rel='nofollow'>http://time.dufe.edu.cn/experience/2007-11-25/264.html</a></p></blockquote>
<p>白话加逻辑，不用数学而对问题有洞见，说的大概就是“直觉”吧。当然，数学公式密布的场合，直觉也有用武之地，比如，满满一黑板你证明出了一个复杂的定理，然后你拿白话说明为什么会有这个结果，The intuition behind this equation is blablabla，那直觉就相当强了。</p>
<p>经济学直觉完毕。关于统计学直觉，我是类似这样理解的。对非统计科班出身的我们来说，这种训练可能更为重要，而且更为迫切。我们对统计学抱着非常实用的态度，无暇也无力关注大多模型定理背后的推导过程，但为了解释和理解，我们需要对它们有一个通盘的印象，其中的细节不是通过数学推导而来，但是能够用白话明确地表达出来。比如中心极限定理，一个简单的形式是独立同分布的中心极限定理，大概说，如果随机变量X1，…Xn，…相互独立，服从同一分布，且具有相同的数学期望和方差，则随机变量之和ΣXi的标准化变量服从标准正态分布，这可以用数学精确地证明出来。我没有掌握这个推导，但我敢说我能理解这个定理，并且能够明确无误地传达出来，用白话，而不是刚才提到的数学语言。我读维恩堡《数理统计初级教程》，里面是这种处理的（下面的文字来自我做的读书笔记，而不必是该书的摘录。很多朋友可能没法看到该书，我在博客里有记，<a href="http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!377.entry" target="_blank" rel='nofollow'>http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!377.entry</a>）：</p>
<blockquote><p><strong>演示性例子</strong></p>
<p>想像一个很大的箱子，装满了小纸条，可供我们无穷无尽地抽取，每张纸条上写有一个数字。为简单起见，假定只有0、1、2三个数字，且每个数字出现在每张纸条上的可能性都是1/3。记住，这个箱子里的纸条如此之多，以致我们可以抽取任一数目的任一种纸条，而不必担心会改变箱中剩下的各种纸条之间的比例。</p>
<p>箱子有一个小口，通过它，每次可以释放出一张纸条。箱子还有一个洗牌装置，这种装置会把纸条洗得这样得均匀，以至当我们决定抽取一张时，每张纸条有同样的被释放出来的机会。因此，我们的观察室独立的，而且我们的样本是随机的。</p>
<p>现在我们就来抽取等容量的随机样本，假设每个样本都包含200张纸条。</p>
<p>我们一张一张地抽取200张纸条。比如头一张纸条上的数字是2，第二张纸条的数字是0，第三张纸条是2，如此等等。假设构成这个第一份样本的200张纸条上的数字总和是210，这个和成为所产生的新的分布的第一项。</p>
<p>第二个样本的200张纸条上的数字之和比如是194.对大量的样本，每个样本都包含200张纸条，重复这个过程。中心极限定理告诉我们，这种样本和数越来越多时，样本和的分布近似于正态分布。</p>
<p><strong>如何实际运用中心极限定理</strong></p>
<p>关于中心极限定理，对被抽取样本的那个总体没有要求任何限制。不管被抽取样本的那个总体，其分布的形状如何，样本和的分布都是正态的。</p>
<p>中心极限定理说明，为什么正态分布出现在如此多的不同的问题之中。我们用于纸条取样的那种方法，看来是实际中特别喜欢使用的一种方法。在每次情况中出现的、构成一个正态分布的那些数，都可以看作独立观察资料的等容量样本的和。</p>
<p>例子1。考察射击时围绕靶子构成正态分布的子弹。每一颗子弹击中的位置实际上是许多随机影响的和，比如姿势、风向、光线、心理等等。这些因素和诸如此类因素的影响，同时在一位特定射手的身上起作用；且对于不同的射手，它们是不同的。一个射手的得分，表明他的子弹最终射到何处去了，这个得分是那些随机影响的样本之和。具体地，比如每一个射手的分布式70项主要影响之和，因而每一发子弹的得分，都可以看作是70项的一个样本和（与70张纸条上的那些数字的和相对应）。这样一来，不同射手的得分，就可以看作是不同的等容量样本的和。根据定理1，子弹得分的分布式正态的。</p>
<p>例子2。考察每个人的智力水平，也可以当作出自不同根源的小影响的和来看待，包括营养、机会、性格、遗传等等。这么看来，大量的人的智力水平的分布式正态的。</p></blockquote>
<p>这就是我喜欢的Intuitive Approach。这本书行走可读，坐卧可读，借助些简单的符号，适度的图表，统计学的基本模型都可以这样清晰地用白话表达出来。我下功夫学习并鼓吹用白话描述统计学，是去年跟Teradata的一位朋友聊天，他提到向客户陈述数据分析结果时，一定要用大白话明确地说出来。当时我尝试了一下，发现自己对统计学的基本概念，都还停留在数学描述的阶段。惭愧惭愧，那时的还自以为自己颇有些统计的基础呢，从此下决心苦练基本功，目标是对所有基本的统计概念、模型，都要达到能够清楚地向一个高年级高中生描述的程度。从应用的角度来说，这种训练是必须的。一个统计学家，不能指望他的听众都一样统计出身，同样，对大多数需要应用统计工具的非统计学家来说，也不能假设他的客户一样是统计爱好者，专业词汇只在一个很窄的圈子里通用。</p>
<p>上面提到的是对统计理论的直观理解。在运用统计技术时的直觉，需要理论基础和经验，这个我就说不了太多了。猜想，一个对统计技术有良好直觉的人，应该对各种数据的分布很敏感，对各种统计方法的运用和误用都了如指掌，总之言之言而总之，他应该像一个经验丰富的手工艺人，老木匠老雕匠一样。</p>
<p>再说<strong>统计工具</strong>的选用，先是初学时的工具，然后是工作的工具。初学者的工具，就是比如你第一次学习安德森或林德的基础统计学，需要选用的统计软件。首先不推荐用SAS、SPSS之类大型的商业软件包，他们会把初学者的精力吸引到工具的使用上面而不是统计理论的理解方面。就像初学一门编程语言，比如C++，所有的经典教材都鼓励用文本编辑器（如记事本、Notepad++等）写代码，而不是一上来就是用一些集成开发环境(IDE)如微软的Visual C++之类。文本编辑器足够简单，能让初学者集中精力关注代码本身而不是IDE的环境设置等扰乱心神的东西。</p>
<p>对初学者来说，电子表格如Excel是一个非常好的选择，足够简单，容易上手，而且还几乎够用。我推荐Excel的另一个理由是，在电子表格里，初学者可以更亲密地接触数据。电子表格里的数据容易编辑，容易犯错，容易修正，容易转换。我甚至鼓励初学者只用加减乘除四则运算，在Excel里手算些基本的如回归模型。手算的好处就是，你会觉得这个模型是你可以“掌”握的，每个结果都是你可以控制的，而不像SAS等软件包运行后就冒出来一大堆像是不请自来的结果。</p>
<p>为了增强对数据的敏感，我鼓励初学者花时间熟悉他有代表性的练习数据。学习统计或者统计软件时，我们面对大量不同的数据，经常是跑完一个数据，看看结果，然后转到另一份数据。这不利于培养对数据的敏感度，前面我提到，对数据的敏感是对统计技术运用有良好直觉的表现之一。讲个极端的例子，在Oracle数据库里，有一个用于测试和练习的公共账户scott，里面有一些数据库表的实例，其中主要两个表，雇员表EMP和部门表DEPT。大概全世界的Oracle程序员都用这两个表练习写SQL语句。他们对这几个表的熟悉程度到了多么夸张的地步呢？Oracle程序员聚会时，一个人提到EMP表里的某个人物，比如Smith，另一个人就可以说出他的职位来（这里Smith的Job是Clerk）。这真正是跟数据同呼吸共命运。</p>
<p>扯远了。还是用程序编辑器的类比，文本编辑器如记事本在初学时够用，但真正做项目时就会显得捉襟见肘了，Windows下的程序员多数还是会选择一些集成开发环境如VC++，这就是统计世界的商业软件包，成熟的是SAS、SPSS和S-Plus，选一款用就是，每款都几乎够用。我现在用SAS，不是说它一定就是最好的，只是说机缘巧合，选择了它，喜欢它，并且不准备更换。选择一个统计包，其实是个很偶然的事，你的老师用什么，你的朋友用什么，你的同事用什么，你大概就会用什么。石头都能刻出花来，无论玩哪一个，都能达到很高的境界。武林高手都有自己得心应手的兵刃，对学者来说，讨论SAS与SPSS孰优孰劣真是没有一点意义，都工具而已。即使不用SAS不用SAS，高手用SQL语句也是能够硬生生鼓捣出一棵决策树出来。</p>
<p>再提一下R，最近在各个统计社区都很流行，这是一款基于命令行的开源统计包。一个讨论就是，用基于命令的软件如R、SAS还是有图形界面的如SPSS。仁者见仁，智者见智，这当然又是一个伪问题，就看个人喜好了。其他的我不是很熟，就拿SAS说事。我们一般认为SAS是要写代码的，那是大多数用户接触Base SAS和SAS/STAT。SAS系统也有好用的桌面工具，如Enterprise Guider、Enterprise Miner、JMP等，图形界面都很友好，自己也经常用。工作中，其实我们都会抱着一个很实用的拿来主义态度，哪个适合完成任务，就选用哪个。但初学者静不下来，就会紧着考虑自己到底要选择哪些装备。</p>
<p>一般地，如果你熟悉SAS，一家只购买了SPSS的公司就不会怀疑你是不是会使用SPSS，其他类似。这里我还是强调它们的工具特性。工具会让我们更有自信，一个资质平平而且无意成为武林高手的庄稼汉，只要接受一点军事训练，拿一把刀就可以壮胆，在战场上还可能立功。现在他手头有一把屠龙刀，你就能指望他号令天下吗？一样的道理，你掌握了SAS，只能让你对处理数据更有信心，而且也能让你在工作中达到既定的目标，但这不表明你的统计功底就达到了你期望的水平。很久很久以前，统计先驱们是硬生生地摇手柄或者干脆拿稿纸手算，创立了现在我们使用的大部分基本统计模型。</p>
<p>到现在，总结一下思路，卑之无甚高论，我对初学者的建议是：</p>
<ol>
<li>找一个类似安德森或林德的统计学入门教材，熟悉概念和基本模型；</li>
<li>在学习初期，可以使用Excel等电子表格，培养自己手算的敏感；</li>
<li>做项目时，找一款适合自己的软件包；</li>
<li>继续学习统计，不要迷信工具。</li>
</ol>
<p>一些小建议，还可以附在最后：</p>
<ol start="5">
<li>学习期间，有任何问题，首先不要想着去论坛发问，教科书或Google能解决你大部分问题。或者干脆找到一个懂行的人，直接去问。人要爱惜自己的羽毛，在论坛问一些傻瓜问题，会损害你在社区的名誉。自己解决问题，会让自己变得更强壮；</li>
<li>不要过于积极地去网上找学习资料。资料太多，人生太短，对大部分人来说，需要的几本书，国内都有引进，找一本搁案头翻阅就是。几本难得的电子书，赶紧打印了出来，从此不再网上瞎整。以前我把硬盘塞满时，突然警惕。疯狂收集电子书自有乐趣，你会沉浸在这种乐趣之中，而忽略真正有用的东西和真正要做的事情；</li>
<li>多认识几位念统计学的朋友，让自己时刻清醒，自己还是这个领域的门外汉。我们都有自己的专攻，清楚非科班出身的人在涉及自己领域时的种种形状。</li>
</ol>
<p>胡江堂<br />
2008-11-20</p>
<h3  class="related_post_title">相关文章</h3><ul class="related_post"><li><a href="http://cos.name/2010/04/think-sas-1/" title="Think SAS(一)">Think SAS(一)</a> (92)</li><li><a href="http://cos.name/2008/12/my-experience-with-statistics-by-chongjie-liu/" title="刘重杰：和统计接触的经历">刘重杰：和统计接触的经历</a> (4)</li><li><a href="http://cos.name/2008/11/domain-of-statistics-by-yihui/" title="统计学的领域（写给在统计学院学习的学弟学妹之一）">统计学的领域（写给在统计学院学习的学弟学妹之一）</a> (14)</li><li><a href="http://cos.name/2010/05/from-clt-simulation-to-normal-distribution/" title="从中心极限定理的模拟到正态分布">从中心极限定理的模拟到正态分布</a> (35)</li><li><a href="http://cos.name/2009/08/econ-software-sas/" title="我的求学之路：经济学、软件工程、SAS">我的求学之路：经济学、软件工程、SAS</a> (31)</li></ul><h3>最新评论</h3><ul><li><a class="commentor" href="" >DORAEMON</a> : <a class="comment_content" href="http://cos.name/2008/11/how-to-learn-statistics-by-jthu/#comment-762" title="View the entire comment by DORAEMON" >哈 经济学必然走向量化 我本科学保险精算 研究生考统计喽</a></li>
<li><a class="commentor" href="" >酸菜</a> : <a class="comment_content" href="http://cos.name/2008/11/how-to-learn-statistics-by-jthu/#comment-734" title="View the entire comment by 酸菜" >我是大一的学生。本来就挺喜欢统计学这个专业的，但是因为就业率很低的问题搞得我很郁闷。现在看来好像努力...</a></li>
<li><a class="commentor" href="" >Paganini</a> : <a class="comment_content" href="http://cos.name/2008/11/how-to-learn-statistics-by-jthu/#comment-671" title="View the entire comment by Paganini" >请问《商务与经济统计》是英文版好还是中文版好呢？

有统计学基础，不扎实，想拜读下，找找感觉</a></li>
<li><a class="commentor" href="" >yuanzhd</a> : <a class="comment_content" href="http://cos.name/2008/11/how-to-learn-statistics-by-jthu/#comment-578" title="View the entire comment by yuanzhd" >确实是好经验，谢谢指教！</a></li>
<li><a class="commentor" href="http://weitaiyun.blogspot.com/" >魏太云</a> : <a class="comment_content" href="http://cos.name/2008/11/how-to-learn-statistics-by-jthu/#comment-362" title="View the entire comment by 魏太云" >讲得太好了，有如当头棒喝，醍醐灌顶。</a></li>
</ul>]]></content:encoded>
			<wfw:commentRss>http://cos.name/2008/11/how-to-learn-statistics-by-jthu/feed/</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
	</channel>
</rss>
