所有由COS编辑部发布的文章

关于COS编辑部

本账户为COS编辑部公共账户,目前由朱雪宁任主编,由王小宁和张心雨担任副总编,编辑有:蔡占锐,常象宇,邓金涛,邓一硕,丁维悦,范超,冯璟烁,冯凌秉,高涛,郎大为,吕翔,彭晨昱,邱怡轩,施涛,覃文锋,王健桥,魏太云,吴佳萍,谢益辉,熊熹,杨舒仪,于嘉傲,主要负责主站文章的规范化编辑以及相关论文、书籍、手册的整理、编纂、出版等工作。

COS访谈第24期:郭绍俊老师

【COS编辑者按】受访者:郭绍俊      采访者:冯璟烁、于嘉傲     校对:于嘉傲    

郭绍俊     2003年毕业于山东师范大学,2008年获得中国科学院数学与系统科学研究院理学博士学位。博士毕业后留中国科学院数学与系统科学研究院工作,助理研究员,任期至2016年。工作期间,于2009年-2010年赴美国普林斯顿大学运筹与金融工程系博士后研究,做高维数据分析方面的研究工作,并于2014-2016年在英国伦敦经济学院统计系做博士后研究,做大维时间序列建模方面的研究。 现为中国人民大学统计与大数据研究院副教授。目前主要研究方向有:高维统计学习;非参数及半参数统计建模;大维统计计算;生存分析及函数型数据分析等。 继续阅读COS访谈第24期:郭绍俊老师

降维攻击:目标,比率指标

作者简介:陈丽云,在eBay从事 Experimentation Analytics Research。网络上素来自黑为“落园园主”。

在这个互联网数据唾手可得的时代,但凡有数据的地方,就有战争。一场战役,有人登高摇旗呐喊,有人趁夜暗度陈仓。在以浩瀚数据为目标的战场上,大家费尽心思用尽招数,各种降维攻击,只是没有《三体》里面的体外文明那种强行把三维生物体打击到二维空间的那么残忍罢了。实践中,我们利用各种统计模型对数据进行一而再、再而三的降维,最终获得屈指可数的统计量来做进一步判断。园主一时起意,打算记录一下一场针对比率指标的降维攻击,以飨读者。

简单介绍一下实战的背景。互联网产业是一个快速更迭的产业,而大量的新产品上线和旧产品改良过程牵扯到一个重要的测试手段:A/B实验。A/B实验其实是最简单的随机对照实验(randomized control experiment),想法便是对不同的访客我们呈现不同的网站版本,然后比较一下版本之间的效果差异就好了。这是一种客观和简洁高效的判定方式,但也是陷阱无数。

园主常驻某电商网站的A/B实验咨询服务台,负责回答各种古灵精怪的问题。一日,有人跑过来问, “咦,我们最近想看一下实验对于网站上卖的东西的价格有没有影响,是不是有bug啊我没找到。” 等一下,你们难道不知道不能这么跟程序员讲话的么?

你不能对一个程序员说:你的代码有bug。他的第一反应是:1,你的环境有问题吧;2,傻逼你会用吗。如果你委婉地说:你这个程序和预期的有点不一致,你看看是不是我的使用方法有问题。他本能地会想:操,是不是出bug了!

image01

园主表面故作淡定的说,打发走了咨询者之后,查了一下来龙去脉,还真是个历史遗留bug…说起来这个价格指标也不是很复杂,其实就是在一个A/B实验期间,实验组和对照组用户购买的所有商品的平均价格的差异。听起来不就是算个平均数然后减一下嘛,这有什么难算的?在园主看来,有三个重要的问题需要注意,下面一一解释。

继续阅读降维攻击:目标,比率指标

COS访谈第23期:尹建鑫老师

【COS编辑者按】受访者:尹建鑫      采访者:王小宁     校对:王佳    

尹建鑫       中国人民大学副教授,2009年在北京大学获得博士学位。2009年至2011年在美国宾夕法尼亚大学医学院生物统计系做博士后研究。2011年8月回国到中国人民大学任教。从事高维变量选择、图模型估计、结构学习算法、自适应实验设计、非参数统计等方面的研究。研究成果发表在国际知名统计杂志上(Annals of Applied Statistics, Journal ofMultivariate Analysis,Statistica Sinica)及Journal of Machine Learning Research的W&CP系列中。曾多次参加国际、国内学术会议,做演讲、邀请报告。并曾作为参赛队代表获因果与预测国际挑战赛“最佳整体贡献奖”。目前主持一项国家自然科学基金青年项目、一项教育部博士点基金项目。2015年获教育部第七届高等学校科学研究优秀成果奖(人文社会科学)统计学三等奖

继续阅读COS访谈第23期:尹建鑫老师