书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
阅读全文 »
标签 ‘ 混淆矩阵 ’
Bootstrap
Confusion Matrix
COS
Logistic回归
P值
R
R语言
SAS
Sensitiveity
Specificity
SPSS
WinBUGS
中国人民大学
中心极限定理
主站
会议
假设检验
分析数据
分类模型
博客
可视化
回归
学习经历
导读
应用统计科学研究中心
收集数据
散点图
数据挖掘
整理数据
期望
概率论
混淆矩阵
相关
空间统计
统计之都
统计功课
统计学
统计学院
维基
表述数据
计量经济学
论坛
论文摘要
贝叶斯
重抽样
分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
ROC
上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):
Sensitivity(覆盖率,True Positive Rate)
1-Specificity (Specificity, 负例的覆盖率,True Negative Rate)
阅读全文 »
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样的机械解释中,不敢多说一句,就怕哪里说错。本文就试图用一个统一的例子(SAS Logistic回归),从实际应用而不是理论研究的角度,对以上提到的各个评估指标逐一点评,并力图表明:
这些评估指标,都是可以用白话(plain English, 普通话)解释清楚的;
它们是可以手算出来的,看到各种软件包输出结果,并不是一个无法探究的“黑箱”;
它们是相关的。你了解一个,就很容易了解另外一个。
本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始,它最简单,而且是大多数指标的基础。
阅读全文 »
