如何生成一个GeoBUGS格式的中国地图
第一节 导言
之前有些对GeoBUGS感兴趣的同学发邮件询问我有没有GeoBUGS的中国地图,以用于分析中国国内的一些空间数据。我想有必要将如何生成GeoBUGS格式的地图的方法分享给大家。这样的话, GeoBUGS就可以真正为我们所用,从而对于其他GeoBUGS没有自带的地图,我们也可以轻松生成了。本节不涉及统计分析,仅为GeoBUGS的研究使用者提供一个软件使用的技术参考。关于GeoBUGS的统计的书,国外实在是很多了,但关于这块地图定制的参考资料较少,故提出来供大家参阅。
阅读全文 »
统计图形
各种统计图形介绍及应用
WinBUGS在统计分析中的应用(第四部分)
不同版本的散点图矩阵
散点图矩阵是散点图的高维扩展,它从一定程度上克服了在平面上展示高维数据的困难,在展示多维数据的两两关系时有着不可替代的作用。R 软件就包含了各种不同版本的散点图函数,本文主要介绍散点图矩阵的设计及其在R中的实现方法,并比较它们的长短,从而审时度势,选取自己喜欢的表现方式和相应的函数。
阅读全文 »
相关矩阵的可视化及其新方法探究
针对相关系数阵的可视化方法,本文回顾了颜色图和椭圆图,并提出了一种新方法——圆圈图。通过实际数据的比较和分析,阐述了各类图形的不同性质并发现椭圆图具有许多优良性质,是一类优秀的相关系数阵的可视化方法。
阅读全文 »
调和曲线图和轮廓图的比较
调和曲线图和轮廓图都是多元数据的可视化方法,本文利用R软件和iris数据展示了这两种方法并比较了它们的效果。
阅读全文 »
分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain
书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
阅读全文 »
Google Visualization API 与在线数据分析
近日Google推出了Google Visualization API为在线数据分析开拓了一条崭新的道路。这个项目的初衷就是希望提供一种灵活的在线数据分析的解决方案。之前的名声大噪的Google Map API已经应用到国内的许多诸如地图查询,导航信息,GIS等等诸多领域。也许你也曾是其中一员或将要成为其中一员呢。回过头来,Visualization API则将重点放在数据的探索性分析与结果的展现上。虽然现在没有提供丰富的分析类库,但是在不久的将来,功能强大的在线分析软件,甚至在线开发平台都将不再遥不可及。
阅读全文 »
WinBUGS在统计分析中的应用(第三部分)
用GeoBUGS做简单的空间数据分析
第一节 实例介绍基本的空间模型
GeoBUGS是WinBUGS的一个模块,专门用来分析空间数据(spatial data)。由于和WinBUGS的基本模型结合得比较好,所以被广泛地使用。目前的GeoBUGS除了自身的地图格式外,还支持Splus, ArcInfo 以及 EpiMap的地图格式。当然了,在使用的时候需要做适当的转化才行。
下面是一个简单的例子,大家也可以在GeoBUGS的Manual中找到它。模型假设为条件自回归模型 Conditional Autoregressive(CAR)。数据为苏格兰唇癌疾病数据,反映的是苏格兰56个郡的唇癌发病率。这个数据比较经典,Clayton and Kaldor (1987) 和 Breslow and Clayton (1993)都曾在他们的论著中分析过该数据。
阅读全文 »
使用回归分析,样本过少时不妨好先作图看看
回归分析往往是学统计、学计量课程时接触的第一个统计模型了,甚至不少人可能认为回归分析理所当然成为计量的绝大部分内容——毕竟很多教材中提到统计模型的时候,往往就一个OLS为主的讲法。回归分析的内容当然很广泛,也在学科中占据相对基础的位置。
学会OLS,有人还明白了ML等方法的含义;现在学统计分析的时候,或多或少会安排统计软件的实践课程,于是大家学会了使用Excel,乃至SAS中如何来做经典的回归分析。看过不少的文献,很多都忽略了回归分析模型诊断这个环节——可能很多标准教科书没有强调,甚至是没有讲;这不能不说是一个遗憾。
回归分析使用最广泛,误用的情况也多了些。下面使用一个经典的例子,来“恶心”一下那些“过分钟爱”经典回归分析的人——我在很多课堂上都举过这个例子(Anscombe),作为从基础课程向中级乃至高级课程的开场白。
阅读全文 »
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
ROC
上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):
Sensitivity(覆盖率,True Positive Rate)
1-Specificity (Specificity, 负例的覆盖率,True Negative Rate)
阅读全文 »
用局部加权回归散点平滑法观察二维变量之间的关系
二维变量之间的关系研究是很多统计方法的基础,例如回归分析通常会从一元回归讲起,然后再扩展到多元情况。局部加权回归散点平滑法(locally weighted scatterplot smoothing,LOWESS或LOESS)是查看二维变量之间关系的一种有力工具。
LOWESS主要思想是取一定比例的局部数据,在这部分子集中拟合多项式回归曲线,这样我们便可以观察到数据在局部展现出来的规律和趋势;而通常的回归分析往往是根据全体数据建模,这样可以描述整体趋势,但现实生活中规律不总是(或者很少是)教科书上告诉我们的一条直线。我们将局部范围从左往右依次推进,最终一条连续的曲线就被计算出来了。显然,曲线的光滑程度与我们选取数据比例有关:比例越少,拟合越不光滑(因为过于看重局部性质),反之越光滑。
阅读全文 »
