Breiman访谈实录

COS编辑部按:本文是一篇Richard Olshen对Leo Breiman的采访稿(原文发表在Statistical Science)。翻译工作已经得到作者授权。翻译: 张晔、成慧敏、李宇轩。审校:高涛、侯澄钧、丁鹏、魏太云。此外,郑重感谢施涛、丁鹏、郁彬老师为文章的翻译指导和版权沟通提供的帮助。

译者简介:张晔,毕业于华南统计科学研究中心,现严肃科技平台开发工程师,主要负责docker容器调度系统开发。成慧敏,就读于中央财经大学统计与数学学院,硕士研究生二年级,研究兴趣为复杂网络分析与深度学习。李宇轩,就读于中国人民大学统计学院,大二本科生,目测统计有关都可以是学习方向。

1928年1月28日,Leo Breiman生于纽约。5年后,他们家搬到了旧金山,然后Leo开始了他的学业。在他读初中的时候,他们家又搬去了洛杉矶。1945年,Leo从Roosevelt高中毕业后考进了加州理工学院,在那里他花了4年时间主修物理。1950年,Leo拿到了哥伦比亚大学的数学硕士学位,1954年,他又拿到了加州大学伯克利分校的数学博士学位。

Leo对科学和数学有着广泛的兴趣,包括信息论和博弈论。他曾参与汽车交通、空气质量和有毒物质识别等方向的研究。 他写过一篇著名的关于概率论的毕业论文,他是分类回归树(CART, Classification and Regression Trees)及其配套软件$CART^R$的四位作者之一,另外他还写了两本专著。Leo和Jerome Friedman一起开创了ACE(alternating conditional expectations)算法,该算法描述了因变量和自变量之间的非线性回归关系。 他开创性地提出将”bagging”和”arcing”这两种需要大量计算的方法用于分类,目前很多学者对此十分感兴趣。

Leo的职业履历包括,加州大学洛杉矶分校(UCLA)数学系教职,13年的独立咨询顾问,加州大学伯克利分校(UC Berkeley)统计系教授,同时也是该校统计计算实验室的创始人兼主任。 另外,他还是斯坦福大学和耶鲁大学的客座教授。 由于他的诸多贡献,Leo被授予数理统计研究所(Institute of Mathematical Statistics)和美国统计协会(American Statistical Association)的荣誉基金。 同时,他还是美国艺术与科学学院(American Academy of Arts and Sciences)的选举成员,并被加州大学授予Berkeley Citation荣誉奖项。

Leo Breiman是一个兴趣广泛的人,他不仅是专业的统计学家和概率学家,还在其他方面也取得了很多成就。他在Catskills当过服务员,在Merchant Marine当过洗碗工,同时他是一名探寻过热带雨林核心地带的背包客,是一群来自墨西哥农村孩子的慈爱父亲,是Santa Monica学校董事会的主席,是他美丽小屋的建筑师,还是一个技艺高超的雕刻家。Leo和他的妻子Mary Lou,居住在加州伯克利,他们育有两个女儿,Rebecca和Jessica。

采访者简介:Richard Olshen,斯坦福大学生物统计教授,生物统计方向(Division of Biostatistic)首席科学家,卫生研究和政策系(Department of Health Research and Policy)的副主任,斯坦福大学电气工程系和统计系兼职教授。该访谈于1999年2月19日在Leo和他的妻子Mary Lou的家中进行。 继续阅读Breiman访谈实录

降维攻击:目标,比率指标

作者简介:陈丽云,在eBay从事 Experimentation Analytics Research。网络上素来自黑为“落园园主”。

在这个互联网数据唾手可得的时代,但凡有数据的地方,就有战争。一场战役,有人登高摇旗呐喊,有人趁夜暗度陈仓。在以浩瀚数据为目标的战场上,大家费尽心思用尽招数,各种降维攻击,只是没有《三体》里面的体外文明那种强行把三维生物体打击到二维空间的那么残忍罢了。实践中,我们利用各种统计模型对数据进行一而再、再而三的降维,最终获得屈指可数的统计量来做进一步判断。园主一时起意,打算记录一下一场针对比率指标的降维攻击,以飨读者。

简单介绍一下实战的背景。互联网产业是一个快速更迭的产业,而大量的新产品上线和旧产品改良过程牵扯到一个重要的测试手段:A/B实验。A/B实验其实是最简单的随机对照实验(randomized control experiment),想法便是对不同的访客我们呈现不同的网站版本,然后比较一下版本之间的效果差异就好了。这是一种客观和简洁高效的判定方式,但也是陷阱无数。

园主常驻某电商网站的A/B实验咨询服务台,负责回答各种古灵精怪的问题。一日,有人跑过来问, “咦,我们最近想看一下实验对于网站上卖的东西的价格有没有影响,是不是有bug啊我没找到。” 等一下,你们难道不知道不能这么跟程序员讲话的么?

你不能对一个程序员说:你的代码有bug。他的第一反应是:1,你的环境有问题吧;2,傻逼你会用吗。如果你委婉地说:你这个程序和预期的有点不一致,你看看是不是我的使用方法有问题。他本能地会想:操,是不是出bug了!

image01

园主表面故作淡定的说,打发走了咨询者之后,查了一下来龙去脉,还真是个历史遗留bug…说起来这个价格指标也不是很复杂,其实就是在一个A/B实验期间,实验组和对照组用户购买的所有商品的平均价格的差异。听起来不就是算个平均数然后减一下嘛,这有什么难算的?在园主看来,有三个重要的问题需要注意,下面一一解释。

继续阅读降维攻击:目标,比率指标

COS访谈第23期:尹建鑫老师

【COS编辑者按】受访者:尹建鑫      采访者:王小宁     校对:王佳    

尹建鑫       中国人民大学副教授,2009年在北京大学获得博士学位。2009年至2011年在美国宾夕法尼亚大学医学院生物统计系做博士后研究。2011年8月回国到中国人民大学任教。从事高维变量选择、图模型估计、结构学习算法、自适应实验设计、非参数统计等方面的研究。研究成果发表在国际知名统计杂志上(Annals of Applied Statistics, Journal ofMultivariate Analysis,Statistica Sinica)及Journal of Machine Learning Research的W&CP系列中。曾多次参加国际、国内学术会议,做演讲、邀请报告。并曾作为参赛队代表获因果与预测国际挑战赛“最佳整体贡献奖”。目前主持一项国家自然科学基金青年项目、一项教育部博士点基金项目。2015年获教育部第七届高等学校科学研究优秀成果奖(人文社会科学)统计学三等奖

继续阅读COS访谈第23期:尹建鑫老师

共轭梯度法计算回归

共轭梯度示意图(图片来源:维基百科)
轮回眼 共轭梯度示意图(图片来源:维基百科

引子

之所以写这篇文章,是因为前几天统计之都的微信群里有同学提了一个问题,想要对一个很大的数据集做回归。然后大家纷纷给出了自己的建议,而我觉得共轭梯度算回归的方法跟这个背景比较契合,所以就正好写成一篇小文,与大家分享一下。

说到算回归,或许大家都会觉得这个问题太过简单了,如果用 $X$ 表示自变量矩阵,$y$ 表示因变量向量,那么回归系数的最小二乘解就是 $\hat{\beta}=(X’X)^{-1}X’y$。(本文完)



哎等等,别真走啊,我们的主角共轭梯度还没出场呢。前面的这个算系数的公式确实非常简洁、优雅、纯天然、不做作,但要往里面深究的话,还是有很多问题值得挖掘的。

最简单暴力的方法,就是从左向右,依次计算矩阵乘法,矩阵求逆,又一个矩阵乘法,最后是矩阵和向量的乘法。如果你就是这么算的,那么可以先默默地去面壁两分钟了。

更合理的方法,要么是对 $X’X$ 进行 Cholesky 分解,要么是对 $X$ 进行 QR 分解,它们基本上是现在算回归的软件中最常见的方法。关于暴力方法和矩阵分解方法的介绍和对比,可以参见这个B站上的视频。(什么?你问我这么严肃的话题为什么要放B站上?因为大部分时间都是在吐槽啊)

好,刚才去面壁的同学现在应该已经回来了,我们继续。前面这些通过矩阵运算求回归系数的方法,我们可以统称为直接法。叫这个名字,是因为它们都可以在确定数目的步骤内得到最终的结果。而与之相对的,则叫做迭代法,意思是通过不断更新已经得到的结果,来逐渐逼近真实的取值。打个比方,你想要知道一瓶82年的拉菲值多少钱,直接法就是去做调研,原料值多少,品牌值多少,加工费多少,运输费多少……然后加总起来得到最终的定价;而迭代法就是去问酒庄老板,你先随便蒙一个数,然后老板告诉你高了还是低了,反复循环,总能猜个八九不离十。

说到这里,你自然要问了,既然算回归的软件大都是用直接法,为什么还要考虑迭代法?莫非直接法有什么不好的地方?这就说到问题的点子上了。

继续阅读共轭梯度法计算回归

COS访谈第22期:李丰老师

【COS编辑者按】受访者:李丰      采访者:王小宁 张心雨      审稿人:成慧敏    

          李丰,博士, 中央财经大学统计与数学学院,副院长,硕士研究生导师, 主要研究方向为大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法以及多元模型。现任北京大数据协会理事,中国统计教育学会高等教育分会副秘书长,曾任2014 年金融工程与风险管理国际研讨会执行秘书。李丰老师是多个国家项目的项目负责人及主要参加人,曾获得The 2014 Cramér Prize等重要奖项。著有《大数据分布式计算与案例》等书籍。 继续阅读COS访谈第22期:李丰老师