分类目录归档:数据分析

统计数据分析案例与理论、方法

降维攻击:目标,比率指标

作者简介:陈丽云,在eBay从事 Experimentation Analytics Research。网络上素来自黑为“落园园主”。

在这个互联网数据唾手可得的时代,但凡有数据的地方,就有战争。一场战役,有人登高摇旗呐喊,有人趁夜暗度陈仓。在以浩瀚数据为目标的战场上,大家费尽心思用尽招数,各种降维攻击,只是没有《三体》里面的体外文明那种强行把三维生物体打击到二维空间的那么残忍罢了。实践中,我们利用各种统计模型对数据进行一而再、再而三的降维,最终获得屈指可数的统计量来做进一步判断。园主一时起意,打算记录一下一场针对比率指标的降维攻击,以飨读者。

简单介绍一下实战的背景。互联网产业是一个快速更迭的产业,而大量的新产品上线和旧产品改良过程牵扯到一个重要的测试手段:A/B实验。A/B实验其实是最简单的随机对照实验(randomized control experiment),想法便是对不同的访客我们呈现不同的网站版本,然后比较一下版本之间的效果差异就好了。这是一种客观和简洁高效的判定方式,但也是陷阱无数。

园主常驻某电商网站的A/B实验咨询服务台,负责回答各种古灵精怪的问题。一日,有人跑过来问, “咦,我们最近想看一下实验对于网站上卖的东西的价格有没有影响,是不是有bug啊我没找到。” 等一下,你们难道不知道不能这么跟程序员讲话的么?

你不能对一个程序员说:你的代码有bug。他的第一反应是:1,你的环境有问题吧;2,傻逼你会用吗。如果你委婉地说:你这个程序和预期的有点不一致,你看看是不是我的使用方法有问题。他本能地会想:操,是不是出bug了!

image01

园主表面故作淡定的说,打发走了咨询者之后,查了一下来龙去脉,还真是个历史遗留bug…说起来这个价格指标也不是很复杂,其实就是在一个A/B实验期间,实验组和对照组用户购买的所有商品的平均价格的差异。听起来不就是算个平均数然后减一下嘛,这有什么难算的?在园主看来,有三个重要的问题需要注意,下面一一解释。

继续阅读降维攻击:目标,比率指标

热门数据挖掘模型应用入门(一): LASSO回归

作者简介:
侯澄钧,俄亥俄州立大学运筹学博士,目前在美国从事财产事故险(Property & Casualty)领域的保险产品开发,涉及数据分析,统计建模,产品算法优化等方面的工作。

目录:
— 模型简介
— 线性回归
— Logistic回归
— Elstic Net模型家族简介
— 学习资料

继续阅读热门数据挖掘模型应用入门(一): LASSO回归

为什么我不是R方的粉丝

本文翻译自 John Myles White 的博客 Why I’m Not a Fan of R-Squared。翻译工作已经获得作者授权同意。

本文大意

人们通常喜欢用 $R^2$ 作为评判模型拟合好坏的标准。与 MSE MAD 不同,$R^2$ 不只是模型误差的函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,$R^2$ 回答的是这样一个问题:“我的模型是否比一个常数模型更好?”,然而我们通常想要回答的是另一个完全不同的问题:“我的模型是否比真实的模型更差?

通过一些人为构造的例子我们可以很容易发现,对这两个问题的回答是不可互换的。我们可以构造一个这样的例子,其中我们的模型并不比常数模型好多少,但同时它也并不比真实的模型差多少。同样,我们也可以构造出另一个例子,使得我们的模型远比常数模型要好,但也远比真实模型要差。

与所有的模型比较方法一样,$R^2$ 不单是被比较模型的函数,它也是观测数据的函数。几乎对于所有的模型,都存在一个数据集,使得常数模型与真实模型之间是无法区分开的。具体来说,当使用一个模型区分效能很低的数据集时,$R^2$ 可以任意地向零趋近——即使我们对真实模型计算 $R^2$ 也是如此。因此,我们必须始终记住,$R^2$ 并不能告诉我们模型是否是对真实模型的一个良好近似:$R^2$ 只告诉我们,我们的模型在当前的数据下是否远比一个常数模型要好。 继续阅读为什么我不是R方的粉丝

有效统计实践的十项简明原则

本文作者:Robert E. Kass; Brian S. Caffo; Marie Davidian; Xiao-Li Meng; Bin Yu; Nancy Reid

原文出处

Ten Simple Rules for Effective Statistical Practice. Kass RE, Caffo BS, Davidian M, Meng X-L, Yu B, Reid N (2016) PLoS Comput Biol 12(6): e1004961. doi:10.1371/journal.pcbi.1004961

引言

数月前,广受好评的“十项简则”系列(“Ten Simple Rules” series)的创始人和长期作者 Phil Bourne 建议一些统计学家写一篇关于统计学“十项简则“的文章。(既然如何写好PLOS“十项简则”文章的原则之一就是请 Phil Bourne 加入作者群 [6], 我们希望在这对Phil的热情赞美也能达到足够的效果。)

在如何写“十项简则”的指导方针[6]里暗含了一条原则: 了解你的读者。因此,我们罗列在本文的这些原则主要是针对符合这些条件的研究者:具有一定统计知识,并且有可能得到周围统计学家的帮助,或者有亲力亲为的态度并在电脑里已经安装了一些统计软件。本文提及的原则是我们从合作研究与教学经验,以及不止一次的令人沮丧的求助:“麻烦看一下我学生的毕业论文/我的基金申请/审稿人的意见:这需要再加点统计内容,但还要看上去简洁明了。”中总结出来的。

读者也可以找到一些更细致地解释本文观点的优秀文章:比如我们最欣赏的 [4],[12],[15],[11],[17] 和 [21]。

统计学的每一篇文章一般都有一个防止被误解的声明。我们声明是:在本文中,“科学”一词代表了那些通过数据来解决感兴趣的问题的研究。这包括了社会科学,工程学,数字化人文学科,金融等领域。当然统计学家也不会羞于提醒管理者统计科学对任何机构的几乎所有活动都有影响的事实。

原则 1:统计方法应使得数据能够解决科学问题

初级统计使用者和统计专家之间的巨大差别在他们思考如何利用手头的数据时就显露出来。 尽管实验数据显然是为了解决科学问题而收集的,初级使用者往往潜意识里就已经默认数据和所研究的科学问题之间存在联系,然后直接考虑该用哪种方法对数据进行操作,而不是思考研究目标。例如,给定一张基因表达数据的表格,初级使用者往往会问“我该用什么方法去检验?”并寻找相应方法,而一个经验丰富的研究员则会先思考“表达有差异的基因是哪些?”,接着再思考能用数据解决研究问题的各种统计方法。某个正式的统计检验可能非常有用,但是一些其他的方法也可以作为备选,例如热图或者聚类技术。与之类似,在神经影像学中,在不同的实验条件下理解大脑活动是首要目标,用好看的图像来展示这些活动则是次要目标。这种从统计方法到科学问题的观念转变会重塑一个人数据收集和分析的方式。在充分了解这些问题后,统计专家会和他们的合作者讨论数据如何能解决问题以及哪种方法是最有效的。与此同时,他们会确认各种变异性(variablility)的来源和哪些未考虑的情况会打破数据和统计推断之间联系的假设。在完成这些之后,他们才试着建立分析目标和策略。这就是为何与统计学家合作会对研究非常有帮助,以及越早合作,效果就越好的原因 。详情请参考原则 2

继续阅读有效统计实践的十项简明原则

股市稳赚不亏?标普 500的 40 年的投资回报

本文翻译自 GitHub 项目 zonination/investing 的描述文件 README.md。译者对原文顺序有所改动。

原文以 MIT 协议发布,已征得作者  Zoni Nation 许可进行翻译。译文版权归统计之都所有,转载请注明出处。

很多人是从 Reddit 上的 “个人理财”(/r/personalfinance)板块的贴子和评论里认识我的。我最近也经常逛“美丽数据”(/r/dataisbeautiful)板块。(译者注:Reddit 是一个在美国受众广泛的娱乐、社交及新闻网站。它与论坛类似,注册用户可以在网站上发布文字和链接。)

前段时间,我开始了我的第一个数据可视化项目。我先从 Robert Shiller 的标普 500 数据项目中下载了标普 500 的一些数据,开始了疯狂的数据可视化之旅。

最近,我终于把手头上的其他几个项目处理好,安定下来,于是我又回到这些数据上,同时决定用它完成一个完整的可视化项目。

这里引用美联储主席 Alan Greenspan 对 股神 Warren Buffet 说过的一段话:

Warren,你让我太震惊了!你只要不去理会股票市场的短期甚至长期的衰退,咬紧牙关,什么也不做,不卖出任何一支股票,你就总能获得好的股票收益。也就是,你只要把你所有的钱都投到股票里,然后回家看也不看它们一眼,之后你获得的收益比每天尝试进行股票交易的情况还要高。

“个人理财”板块上经常有人在讨论长期持仓(buy and hold)策略的资金安全问题,是选择长期持仓,还是选时操作捕捉市场(time the market)。在这个可视化项目中,我尝试做下面三件事情:

  • 客观地回顾标普 500 相关股票的各个切面的长期投资收益(过去和现在)。
  • 验证和量化 “Invest Early and Invest Often” “早投资,勤投资” 这一格言。
  • 观察使用长期持仓策略会带来什么,以及这个策略的收益。

长期持仓收益

长期持仓收益

继续阅读股市稳赚不亏?标普 500的 40 年的投资回报