标签归档:数据

有效统计实践的十项简明原则

本文作者:Robert E. Kass; Brian S. Caffo; Marie Davidian; Xiao-Li Meng; Bin Yu; Nancy Reid

原文出处

Ten Simple Rules for Effective Statistical Practice. Kass RE, Caffo BS, Davidian M, Meng X-L, Yu B, Reid N (2016) PLoS Comput Biol 12(6): e1004961. doi:10.1371/journal.pcbi.1004961

引言

数月前,广受好评的“十项简则”系列(“Ten Simple Rules” series)的创始人和长期作者 Phil Bourne 建议一些统计学家写一篇关于统计学“十项简则“的文章。(既然如何写好PLOS“十项简则”文章的原则之一就是请 Phil Bourne 加入作者群 [6], 我们希望在这对Phil的热情赞美也能达到足够的效果。)

在如何写“十项简则”的指导方针[6]里暗含了一条原则: 了解你的读者。因此,我们罗列在本文的这些原则主要是针对符合这些条件的研究者:具有一定统计知识,并且有可能得到周围统计学家的帮助,或者有亲力亲为的态度并在电脑里已经安装了一些统计软件。本文提及的原则是我们从合作研究与教学经验,以及不止一次的令人沮丧的求助:“麻烦看一下我学生的毕业论文/我的基金申请/审稿人的意见:这需要再加点统计内容,但还要看上去简洁明了。”中总结出来的。

读者也可以找到一些更细致地解释本文观点的优秀文章:比如我们最欣赏的 [4],[12],[15],[11],[17] 和 [21]。

统计学的每一篇文章一般都有一个防止被误解的声明。我们声明是:在本文中,“科学”一词代表了那些通过数据来解决感兴趣的问题的研究。这包括了社会科学,工程学,数字化人文学科,金融等领域。当然统计学家也不会羞于提醒管理者统计科学对任何机构的几乎所有活动都有影响的事实。

原则 1:统计方法应使得数据能够解决科学问题

初级统计使用者和统计专家之间的巨大差别在他们思考如何利用手头的数据时就显露出来。 尽管实验数据显然是为了解决科学问题而收集的,初级使用者往往潜意识里就已经默认数据和所研究的科学问题之间存在联系,然后直接考虑该用哪种方法对数据进行操作,而不是思考研究目标。例如,给定一张基因表达数据的表格,初级使用者往往会问“我该用什么方法去检验?”并寻找相应方法,而一个经验丰富的研究员则会先思考“表达有差异的基因是哪些?”,接着再思考能用数据解决研究问题的各种统计方法。某个正式的统计检验可能非常有用,但是一些其他的方法也可以作为备选,例如热图或者聚类技术。与之类似,在神经影像学中,在不同的实验条件下理解大脑活动是首要目标,用好看的图像来展示这些活动则是次要目标。这种从统计方法到科学问题的观念转变会重塑一个人数据收集和分析的方式。在充分了解这些问题后,统计专家会和他们的合作者讨论数据如何能解决问题以及哪种方法是最有效的。与此同时,他们会确认各种变异性(variablility)的来源和哪些未考虑的情况会打破数据和统计推断之间联系的假设。在完成这些之后,他们才试着建立分析目标和策略。这就是为何与统计学家合作会对研究非常有帮助,以及越早合作,效果就越好的原因 。详情请参考原则 2

继续阅读有效统计实践的十项简明原则

数据告诉你:高信誉的卖家应该收高价,还是收低价?

刘跃文(西安交通大学管理学院)

看到这个题目,各位看官不妨想一想,淘宝上的信誉高的卖家会收高价,还是会收低价呢?根据我多年的教学经验,这里有四种可能的答案:(A)收高价、(B)收低价、(C)不好说、(D)不知道。您选哪一种?为什么?

且听我慢慢道来。

1 eBay说:卖家信誉越高,最终成交价格越高

1

从2000年开始,以eBay为代表的电子商务发展势头迅猛,养活了一大票科研人员。eBay以网上拍卖为主要的营业方式,因此,当时科研人员的一个主要的研究题目,就是网上拍卖的卖家的信誉如何影响拍卖结果(如成交率、竞拍次数、最终成交价格等)。那么卖家的信誉和最终成交价格是什么关系呢?答案是显著的正相关关系:对于同质商品,高信誉的卖家,其最终成交价格普遍更高。

继续阅读数据告诉你:高信誉的卖家应该收高价,还是收低价?

美国统计协会开始正式吐槽(错用)P值啦

(图片来源:https://xkcd.com/1478,一幅讽刺滥用P值的漫画)

今天美国统计协会(ASA)正式发布了一条关于P值的声(吐)明(槽),算起来可以说是近期统计学界的一件大事了。为什么这么说呢?首先,P值的应用太广,所以对P值进行一些解释和声明非常有必要。其次,对P值的吐槽历来有之,但今天是第一次被一个大型的专业协会以非常正式的形式进行澄清,多少带有一些官方的意思。声明的全文可以在这个页面中下载。

那么这则声明里面都说了什么呢?小编整体读了一遍,把我认为重要的信息概括在这篇文章之中。

首先,ASA介绍了一下这则声明诞生的背景。2014年,ASA论坛上出现了一段如下的讨论:

问:为什么那么多学校都在教 p = 0.05?

答:因为那是科学团体和期刊编辑仍然在用的标准。

问:为什么那么多人还在用 p = 0.05?

答:因为学校里还在这么教。

看上去多少有点讽刺的味道,但事实却也摆在眼前。从舆论上看,许许多多的文章都在讨论P值的弊端,小编摘录了几条言辞比较激烈的:

这是科学中最肮脏的秘密:使用统计假设检验的“科学方法”建立在一个脆弱的基础之上。——ScienceNews(Siegfried, 2010)

假设检验中用到的统计方法……比Facebook隐私条款的缺陷还多。——ScienceNews(Siegfried, 2014)

针对这些对P值的批评,ASA于是决定起草一份声明,一方面是对这些批评和讨论作一个回应,另一方面是唤起大家对科学结论可重复性问题的重视,力图改变长久以来一些已经过时的关于统计推断的科学实践。经过长时间众多统计学家的研讨和整理,这篇声明今天终于出现在了我们面前。

P值是什么

这份声明首先给出了P值一般的解释:P值指的是在一个特定的统计模型下,数据的某个汇总指标(例如两样本的均值之差)等于观测值或比观测值更为极端的概率。

这段描述是我们通常能从教科书中找到的P值定义,但在实际问题中,它却经常要么被神话,要么被妖魔化。鉴于此,声明中提出了六条关于P值的准则,作为ASA对P值的“官方”态度。这六条准则算是这条声明中最重要的部分了。

继续阅读美国统计协会开始正式吐槽(错用)P值啦

COS沙龙第28期(北京)纪要

28沙龙纪要主题:数据分析的道与术
嘉宾:毕然
主办:统计之都
场地:中国人民大学
组织:蔡占锐、钟琰、丁维悦、闫晗
纪要:钟琰

2015年5月10日,第28期沙龙(北京站)在中国人民大学顺利举行。嘉宾毕然先生热情亲切的与大家交流分享了关于数据分析的术与道的心得。本次沙龙由人大研究生丁维悦主持,嘉宾毕然先生专注于理论与实践的相互促进,涉猎于大数据分析与建模、经济与商业机制、营销与心理学、互联网产品战略等几个方面的研究。

以下为本期沙龙主要内容的回顾:

继续阅读COS沙龙第28期(北京)纪要