生物与医学统计

生物统计与医学统计

我的求学之路:经济学、软件工程、SAS

By 胡江堂 @ 2009/08/09

这个青年的经历,只代表他个人,没有任何群体的意义。 我想写下一段自白,这自白既是我个人的,也具有普遍意义,因为一个人经历过的事情所有的人都可以经历。 /*跟武汉博文视点合作,召集些身边的朋友,2009应届生,计算机背景,在毕业之前,讲讲自己求学、实习、找工作等的经历与感悟,文章将由电子工业出版社结集出版,在今天秋季学期开学之前出来。我是主编,也是作者之一,刚好经历跟大伙有重叠:经济学、软件工程、SAS、统计学、数据挖掘,文章贴出来,大伙多拍砖头。文中我提到COS,COS让我长见识,又结识不少好朋友。*/ 想启蒙至今,我的学习重心从文史哲转到经济学,最后以软件工程收场;在行业方面,在一家软件公司实习了一年多,找工作以药厂收场——用一个朋友的话讲,“背景是复杂得一塌糊涂”。虽然我常以“学一行,爱一行;做一行,爱一行”自勉,有时也不免回首,想想以前经历过的所有分岔口,玩味些那些没有走过的路,无论当时我多么坚决或者犹豫,一条路被选中,然后一路曲折至今。很多事情,很多选择,可能只有以后才能适合评说,现在我选择把它们记下来,在这么一个时点,我就要毕业,我有一个安身立命的去处,我有规划,但我不知道以后生活会给我什么样的分岔口,就跟我以前遭遇的一样。 ——————我的人生轨迹————— 项羽,“学书不成,去;学剑,又不成”。 —-《史记·项羽本纪 1.高中:文科生,喜文史 | |高考 ...
阅读全文 »

Tags: , , , , , , , , ,
Posted in 推荐文章, 数据挖掘与机器学习, 生物与医学统计, 经济学, 统计软件, 行业观察 | 29 Comments »

如何设计一个试验

By 刘飞燕 @ 2009/05/08

单因素试验设计及观察研究
阅读全文 »

Tags: ,
Posted in 生物与医学统计, 试验设计 | 7 Comments »

分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC

By 胡江堂 @ 2008/12/31
分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC

ROC 上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看): Sensitivity(覆盖率,True Positive Rate) 1-Specificity (Specificity, 负例的覆盖率,True Negative Rate)
阅读全文 »

Tags: , , , , , , , , , , , , , ,
Posted in 数据挖掘与机器学习, 生物与医学统计, 统计图形 | 10 Comments »

分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

By 胡江堂 @ 2008/12/25
分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样的机械解释中,不敢多说一句,就怕哪里说错。本文就试图用一个统一的例子(SAS Logistic回归),从实际应用而不是理论研究的角度,对以上提到的各个评估指标逐一点评,并力图表明: 这些评估指标,都是可以用白话(plain English, 普通话)解释清楚的; 它们是可以手算出来的,看到各种软件包输出结果,并不是一个无法探究的“黑箱”; 它们是相关的。你了解一个,就很容易了解另外一个。 本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始,它最简单,而且是大多数指标的基础。
阅读全文 »

Tags: , , , , , , , , ,
Posted in 数据挖掘与机器学习, 生物与医学统计, 统计软件 | 16 Comments »

浅析试验设计

By 李浩成 @ 2008/11/27

试验设计是研究计划内关于研究方法与步骤的一项内容。在各种研究工作中,无论试验室研究、临床疗效观察或现场调查,在制订研究计划时,都应根据试验的目的和条例,结合统计学的要求,针对试验的全过程,认真考虑试验设计问题。一个周密而完善的试验设计,能合理地安排各种试验因素,严格地控制试验误差,从而用较少的人力、物力和时间,最大限度地获得丰富而可靠的资料。反之,如果试验设计存在着缺点,就可能造成不应有的浪费,且足以减损研究结果的价值。总之,试验设计是试验过程的依据,是试验数据处理的前提,也是提高科研成果质量的一个重要保证。
阅读全文 »

Tags: , , , ,
Posted in 生物与医学统计, 试验设计 | 4 Comments »

搜索

推荐阅读

大规模系统内变量关系的研究以及可视化-1因果分析

By 黄帅

引言——变量关系分析的广泛意义
在统计分析中,有这样一类具有普遍意义的问题:在测得了(取样)一个变量系统的数据以后,如何从数据中发现并且验证这些变量之间的关系?了解…阅读全文 »

用GERT方法求解两个抛硬币问题

问题:一枚均匀的硬币,一直抛直至出现HTT(H表示正面,T表示背面),期望要抛多少次?一直抛直至出现HTH(即正反正),期望要抛多少次?假定出现H面的概率为p,出现T面的概率为阅读全文 »

分月存档