分类目录归档:统计推断

数理统计(传统参数估计、假设检验等理论)

降维攻击:目标,比率指标

作者简介:陈丽云,在eBay从事 Experimentation Analytics Research。网络上素来自黑为“落园园主”。

在这个互联网数据唾手可得的时代,但凡有数据的地方,就有战争。一场战役,有人登高摇旗呐喊,有人趁夜暗度陈仓。在以浩瀚数据为目标的战场上,大家费尽心思用尽招数,各种降维攻击,只是没有《三体》里面的体外文明那种强行把三维生物体打击到二维空间的那么残忍罢了。实践中,我们利用各种统计模型对数据进行一而再、再而三的降维,最终获得屈指可数的统计量来做进一步判断。园主一时起意,打算记录一下一场针对比率指标的降维攻击,以飨读者。

简单介绍一下实战的背景。互联网产业是一个快速更迭的产业,而大量的新产品上线和旧产品改良过程牵扯到一个重要的测试手段:A/B实验。A/B实验其实是最简单的随机对照实验(randomized control experiment),想法便是对不同的访客我们呈现不同的网站版本,然后比较一下版本之间的效果差异就好了。这是一种客观和简洁高效的判定方式,但也是陷阱无数。

园主常驻某电商网站的A/B实验咨询服务台,负责回答各种古灵精怪的问题。一日,有人跑过来问, “咦,我们最近想看一下实验对于网站上卖的东西的价格有没有影响,是不是有bug啊我没找到。” 等一下,你们难道不知道不能这么跟程序员讲话的么?

你不能对一个程序员说:你的代码有bug。他的第一反应是:1,你的环境有问题吧;2,傻逼你会用吗。如果你委婉地说:你这个程序和预期的有点不一致,你看看是不是我的使用方法有问题。他本能地会想:操,是不是出bug了!

image01

园主表面故作淡定的说,打发走了咨询者之后,查了一下来龙去脉,还真是个历史遗留bug…说起来这个价格指标也不是很复杂,其实就是在一个A/B实验期间,实验组和对照组用户购买的所有商品的平均价格的差异。听起来不就是算个平均数然后减一下嘛,这有什么难算的?在园主看来,有三个重要的问题需要注意,下面一一解释。

继续阅读降维攻击:目标,比率指标

大话统计:Frequentist or Bayesian

本文引自施涛的博客,其中重要的英文都进行了翻译,原文请点击此处

[前言:先向无法科学上网的客官作揖抱歉了,有些江湖野史可能被墙]

话说江湖风云人物,神算子 Nate Silver, 在纽约时报开博占卜各项江湖话题,每每言中。并著书立传, The Signal and the Noise,一时引来各相追捧

这日,曾留下武林秘籍 All of Statistics: A Concise Course in Statistical Inference 的大侠 Larry Wasserman (Department of Statistics, Department of Machine Learning, Carnegie Mellon University) 突发感想,在自己博客 Normal Deviate 中写下大号书评:
Nate Silver is a Frequentist: Review of “the signal and the noise”

[……]就如你可以看到的,我非常喜欢这本书,并强烈推荐它。
但是……
我有一点要倾诉。Silver非常热衷于贝叶斯推断,这是很好的。不幸的是,他属于我前几篇文章所写的这一类人—— 混淆了“贝叶斯推理”与“使用贝叶斯定理”两个概念。他对于频率派统计推断的描述是比较糟的。他似乎把频率推断等同于了常用于正态分布的费歇尔显著性检验。也许他是从一本劣质的书中学习的统计学,抑或他天天跟一群激进的反频率学派的统计学家厮混,以至于持这样的观点。
继续阅读大话统计:Frequentist or Bayesian

因果推断简介之五:因果图 (Causal Diagram)

这部分介绍 Judea Pearl 于 1995 年发表在 Biometrika 上的工作 “Causal diagrams for empirical research”,这篇文章是 Biometrika 创刊一百多年来少有的讨论文章,Sir David Cox,Guido Imbens, Donald Rubin 和 James Robins 等人都对文章作了讨论。由于 Judea Pearl 最近刚获得了图灵奖,我想他的工作会引起更多的关注(事实上计算机界早就已经过度的关注了)。 继续阅读因果推断简介之五:因果图 (Causal Diagram)

Persi Diaconis(2)

本篇将给出上次提出的解码问题的一个可能的解(建议大家阅读Persi Diaconis写的原文,可以很容易在谷歌中找到,文章名字见上一篇)。

假设我们已经知道该密码文件中所有字符对应的实际中的符号集(如26个英文字母以及0-9的阿拉伯数字等)。

我们将这些字符随机地对应到我们已知的符号,看看结果是否合理(即解码后是否有意义),如此遍历所有可能的对应关系,就可以了。这是一个办法,但显然不是一个好的办法。 继续阅读Persi Diaconis(2)

希格斯玻色子与5σ

本文转自施涛博客,原文链接请点击此处

2012年7月4日,欧洲核子研究组织(CERN, the European Organization for Nuclear Research)的物理学家们宣布发现在欧洲大型强子对撞机中一种疑似希格斯玻色子(Higgs Boson)。

[抄自wikipedia]:希格斯玻色子是粒子物理學的标准模型所预言的一种基本粒子。标准模型预言了62种基本粒子,希格斯玻色子是最后一种有待被实验证实的粒子。在希格斯玻色子是以物理学者彼得·希格斯命名。由于它对于基本粒子的基础性质扮演极为重要的角色,因此在大众传媒中又被称为「上帝粒子」

作为只有高中物理水平的民科,我也能从物理学家们在宣布这发现时的激动(看下面视频)中感到这发现的重大。

另外,推荐对数据分析有兴趣的听一下这神粒子的声音(Listen to the decay of a god particle)。一群粒子物理学家,编曲家,软件工程师,和艺术家用粒子对撞机的数据编成的曲目。另类的数据展示,太强大了!

除了表达对科学家的敬仰外,我也对其中提到的 5$\sigma$ 很感兴趣。既然祖师爷John Tukey说过

The best thing about being a statistician is that you get to play in everyone’s backyard,

我倍受鼓励的来看看这 5$\sigma$ 到底是怎么回事。视频中的点睛之笔:

We have observed a new boson with a mass of 125.3 +- 0.6 GeV at 4.9 σ significance.

念玩后大家鼓掌拥抱,热泪盈眶。一番周折后,我才终于找到了CERN的 原版视频(将近两小时,值得看看)。

开始时只是想搞清楚这 5$\sigma $怎么回事(35:10,第84页),没想到听到一堆统计词汇“multivariate analysis technique”,“p-value”,”sensitivity”, 等等劈头盖脸的飞来。最给力的是 Rolf Heuer 讲了一些用Boosted decision tree来提高分类器准确性的过程(18:20,第33页)。不出所料,研究中用到了很前沿的数据分析方法。老祖师果然没错。看来欲知其中细节,得看数据分析啊!

比较遗憾的是我比较看不懂的是环球科学(科学美国人中文版)的文章 “希格斯粒子现身LHC?”最后对 5$\sigma$ 的解释:

估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用$\alpha$表示。1-$\alpha$ 为置信度或置信水平,其表明了区间估计的可靠性。显著性水平不是一个固定不变的数字,其越大,则原假设被拒绝的可能性愈大,文章中置信度为5$\sigma$(5个标准误差),说明原假设的可信程度达到了99.99997%。

好像这是把假设检验和置信区间绞在一起解释了。本来看了视频还我还觉着我这物理外行也看懂了,现在又被解释糊涂了。谁能看懂给解释一下?