COS每周精选:统计学“大家”谈

本期投稿: 王威廉   王小宁

编辑:王小宁

统计学的七大支柱

JSM上统计界的老帮主Stephen Stigler做了一个主题演讲,讲“统计学的七大支柱” ,好心又认真的Rick Wicklin同学记了笔记,彼时估计还在中国城吃饭的我才得以了解SS大人到底讲了什么。所谓支柱,就是没了它咱就垮了。七大支柱在这里

Continue reading COS每周精选:统计学“大家”谈

统计词画番外篇(一):谁共我,醉明月?

moon

将军百战身名裂。向河梁、回头万里,故人长绝。易水萧萧西风冷,满座衣冠似雪。正壮士、悲歌未彻。啼鸟还知如许恨,料不啼清泪长啼血。谁共我,醉明月?

这是笔者最喜欢的词人辛弃疾的《贺新郎·别茂嘉十二弟》之下阙,最后一句“谁共我,醉明月”写尽了挚友远去的孤独和寂寞。毫无疑问,词人在生活中有自己的基友闺蜜,那么问题来了,词人之间有没有风格相近的知音来共醉明月?笔者识字不多,读词少,所幸学习统计专业,因此只能简单地用统计方法来浅显地探讨一下这个问题了。

本文的题目是统计词画,显然有统计,有词,有可视之图画。好的,铺垫完毕,正文开始。

Continue reading 统计词画番外篇(一):谁共我,醉明月?

浅谈医学大数据(中)

本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授(交流微信号:2823095726)

数据分析框架(传统数据分析框架,大数据分析框架)

医疗大数据有着前面第一节提到的所有特征。在医疗大数据带来各种优势的同时,大数据随之带来的各种特性使得传统的数据处理和数据分析方法及软件捉襟见肘,问题多多。在大数据时代出现之前,受限于数据量的可获得性和计算能力的有限性,传统的数据管理和分析采用着不同的思路和流程。传统上,对于问题的研究建立在假设的基础上进行验证,进而研究事物的相关因果性,希望能回答“为什么”。

而在大数据时代,海量数据的涌现提供了从不同角度更细致更全面观察研究数据的可能,从而打开了人们的好奇心,探索欲望,人们想知道到数据告诉了我什么,而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联,非关联等相关性,然后再进一步比较,分析,归纳,研究(“为什么”变成一个选项而不是唯一终极目标)。大数据与传统数据思路上的不同导致了分析流程的不同,如图一所示:

Continue reading 浅谈医学大数据(中)

浅谈医学大数据(上)

本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理教授(交流微信号:2823095726)

现在无论国内外均出现了移动医疗热,所有的创业团队和投资公司均把商业模式指向了最后的医疗大数据分析。但是可以很负责任的说,90% 以上的人都不知道医疗大数据分析是什么东西,因此这是一篇扫盲贴,但是仅供专业人士。文中分析了医疗大数据、它的维度、方法和成本,以及需要的专业人才。本文无论是对创业团队还是投资机构都是非常有指导意义的。

大数据定义及其特征

大数据顾名思义就是数量极其庞大的数据资料。从上世纪 80 年代开始,每隔 40 个月世界上储存的人均科技信息量就会翻倍 (Hibert & Lopez, 2011)。2012 年,每天会有 2.5EB 量的数据产生 (Andrew & Erik, 2012)。现在,2014 年,每天会有 2.3ZB 量的数据产生 (IBM, 2015)。这是一个什么概念? 现在一般我们电脑的硬盘大小都以 GB,或者 TB 为单位了。1GB 的容量可以储存约 5.4 亿的汉字,或者 170 张普通数码相机拍摄的高精度照片,或者 300-350 首长度为 5-6 分钟的 MP3 歌曲。 那 GB 和 TB, EB,ZB 的关系又是怎样?

Continue reading 浅谈医学大数据(上)

COS每周精选:用R来找寻你的另一半吧!!!

本期投稿: 谢益辉 王小宁

编辑:王小宁

还记得小编的每周精选“统计学在爱情中的那些应用”么,正值春暖花开之时,是不是想约个妹子一起去春游啊。小编又苦心找了几篇文章,以统计学的思维助你一臂之力。

R的独门秘籍:找对象

看到这个题目是是不是很惊讶,R都可以找妹子?不要吃惊,这是真的。用统计的思维去找妹子是不是突然感觉小编的颜值增高了呢?作者用统计学的思维,让数据来证明他说的一点没错。

Continue reading COS每周精选:用R来找寻你的另一半吧!!!