分类目录归档:生物与医学统计

生物统计与医学统计

生物医学大数据分析方法研讨会

当前生物医学研究面临着大数据时代的挑战与机遇,统计学习、数据挖掘等大数据技术在医疗实践、临床研究中得到了广泛应用。其中,基因研究、临床治疗等领域中的高维数据分析方法研究已取得长足发展,同时,随着可穿戴设备的不断发展,实时数据采集和实时监测在临床研究中也开始得到应用。为了促进生物医学领域各界同仁的学术交流,北京生物医学统计与数据管理研究会、中国人民大学统计学院、首都医科大学北京市临床流行病学重点实验室、中国现场统计研究会生物医学统计分会将于2016年5月29日举办“生物医学大数据分析方法研讨会”。本次会议拟邀请国内外知名专家学者莅临,届时将就生物医学研究中的统计方法进行深入交流、讨论。

欢迎各位专家学者、研究同仁拨冗参加。

主办单位

北京生物医学统计与数据管理研究会

中国人民大学统计学院

首都医科大学北京市临床流行病学重点实验室

中国现场统计研究会生物医学统计分会 

承办单位 继续阅读生物医学大数据分析方法研讨会

用R测量灯泡的体积

本文作者:姜晓东,博士毕业于上海交通大学,目前任教于湖南师范大学医学院,专业神经毒理学。

缘起

谈起测量灯泡体积,大家一定记得那个耳熟能详的故事。相传爱迪生发明灯泡的时候,让他的助手阿普顿测量一个灯泡的体积。助手用尺子进行了反复测量,并列出很很多公式,算了很久还没有算出来。爱迪生见罢,拿起那只灯泡,注满水后用量桶测出了体积。助手看了之后幡然醒悟,爱迪生主角光环大亮,随后开示了“不要钻牛角尖”、“时间就是生命”等人生哲理。

每当想起这个故事,不免让人产生很多疑问。爱迪生的这个助手究竟用什么方法来计算体积,为什么这么费时?爱迪生看到后为什么没有直接口头提醒,反而以行动让助手难堪?灯泡注水倒出去后,里面残余液体会不会影响后续的实验?

最近研究R语言的数学计算时,发现R中有非常方便的数值积分函数,可以很快进行求体积等计算。于是上面的那个典故及疑问便涌上心头,索性查清楚文献,做一个了断。

继续阅读用R测量灯泡的体积

R绘制中国地图,并展示流行病学数据

本文作者:姜晓东,博士毕业于上海交通大学,目前任教于湖南师范大学医学院,专业神经毒理学。

流行病学的数据讲究“三间分布”,即人群分布、时间分布和空间分布。其中的“空间分布”最好是在地图上展示,才比较清楚。R软件集统计分析与高级绘图于大成,是最适合做这项工作了。关于地图的绘制过程,谢益辉、邱怡轩和陈丽云等人都早有文章讲述,开R地图中文教程之先河。由于目前指导毕业论文用到,因此研究了一下。本来因为网上教程很多,曾打消了写些文字的计划,但怡轩版主鼓励说“教程者众,整合者鲜”,所以才战胜拖延症,提起拙笔综述整合一下,并对DIY统计GIS地图提出了一点自己的想法。

1 地图GIS数据的来源与R绘制软件包

中国地图GIS数据的官方数据可以在国家基础地理信息中心的网站(http://nfgis.nsdi.gov.cn)里面可以免费下载。官方公开的数据包括:地图数据,及居住地、交通、河流等辅助数据。今年6月开始,官方正组织开始制作新版数据。老数据暂时无法下载,读者要自行百度搜索,本文以旧版数据为例。旧版地图数据中部分地名和地市区划已经过时,使用时需注意。

地图数据有4个压缩文件:bou1_4m.zip、bou2_4m.zip、bou3_4m.zip和bou4_4m.zip。bou代表边界的意思,数字1~4代表国家、省、市、县的4级行政划分;4m代表比例是400万分之一,这个比例的图形是公开的。每个文件解压缩后含有两类文件:以字母p结尾的表示多边形数据,用来绘制区域;以字母l结尾的文件是线形数据,用来绘制边界。但是老版数据中,市级数据中缺少绘制区域的多边形数据,让市级分布图的绘制稍麻烦一些,新版中也许会有改进。

用R绘制地图比较简单。比如画一下全国范围的区域,可以用如下代码:

library(maptools)
mydat = readShapePoly("maps/bou1/bou1_4p.shp")
plot(mydat)

unnamed-chunk-1
但是,可以看出这样绘制的地图的形状有些扁平。这是因为,在绘图的过程中,默认把经度和纬度作为普通数据,均匀平等对待,绘制在笛卡尔坐标系上造成的。其实,地球的球面图形如何映射到平面图上,在地理学上是有一系列不同的专业算法的。地图不应该画在普通的笛卡尔坐标系上,而是要画在地理学专业的坐标系上。在这一点上,R的ggplot2包提供了专门的coord_map()函数。所以推荐R的ggplot2包来绘制地图。

library(ggplot2)
mymap = ggplot(data = fortify(mydat)) +
    geom_polygon(aes(x = long, y = lat, group = id), colour = "black",
                 fill = NA) +
    theme_grey()
print(mymap + coord_map())

unnamed-chunk-2
这次中国地图的形状与百度地图一样了。 继续阅读R绘制中国地图,并展示流行病学数据

昔日因,今日意

本文作者杨灿:杨灿于2011年在香港科技大学电子计算机工程系获得博士学位,2011-2012为耶鲁大学生物统计系博士后,现为耶鲁大学副研究员。

飞帅云:“三十功名尘与土,八千里路云和月。莫等闲,白了少年头,空悲切。”可我在耶鲁两年多了,基本一事无成。既没有像当年那样死磕Lasso和Boosting,也没有能追随Deep Learning 的浪潮。曾经真的以为人生就这样了,平静的心拒绝再有浪潮。斩了千次的情丝却断不了,百转千折她将我围绕。有人问我她究竟是哪里好?我想我是鬼迷心窍。

1 向来痴

她就是LMM,我给她起了一个美丽的中文名:“林妹妹”。

对我这种工科男,与林妹妹相知相识,是需要一段奇缘。从在浙大本科自动化专业入学,到港科大的电子系博士快毕业,曾经有且仅有一次机会与她相识,还是被很傻很天真的我错过了。现在不管我怎么念“菠萝菠萝蜜”,时光还是不会倒流的。我只是想,如果上天可以给我一个机会再来一次的话,我会对她说八个字:“我们好像在哪见过?”然而,有缘人终归是有缘人,奇妙的感觉就在点火的那一刹那。 继续阅读昔日因,今日意

医学统计学的渊源

医学统计学应该从什么地方开始讲起呢?多数授课老师的讲课方式是简要说一些医学统计学的概念,然后接着介绍医学统计学的内容、各种概念等。当然,这也是绝大多数教材的结构安排。

我们这里不是讲课,所以我不从这里讲,我们要像讲故事一样。你怎么才能tell story,让别人明白呢?我想首先要讲清楚这个故事的渊源,也就是来龙去脉。那么统计学的渊源是什么呢?所有统计学的发展,或者说统计学之所以存在,只有一个原因,那就是变异以及变异所导致的抽样误差。没有变异,没有抽样误差,就没有统计学存在的理由。想象一下,如果全世界所有人的身高都是1.70米,那还有必要进行抽样做统计推断吗?只要随便量一个人的身高,就知道了全世界人的身高。那统计学还有存在的必要吗?
继续阅读医学统计学的渊源