分类目录归档:统计刊物

基于机器学习的高价值用户自动发现

作者:

迟保昉 (猎聘大数据研究院)     苏铖 (猎聘大数据研究院)    单艺 (猎聘大数据研究院)

摘要:猎聘每天有数万新用户注册。但是,其中有的用户只是填写了少量的职业信息,即名片信息,而并未完成整个简历的填写。为获得完整的简历,猎聘职业顾问团队(GCDC)需要电话联系该部分用户完善简历。历史数据表明,未填写简历的用户中有相当数量的高价值的用户,而猎聘职业顾问需要能够优先拨打这批高级用户并提升其转化率。 为此,我们研发了基于kNN算法的自动名片用户分类系统——card-rater。该系统根据用户填写的名片信息对新用户的级别进行预测,推断其为高级简历用户的可能性。将评分较高、更有可能是高级的用户推荐给GCDC进行优先电话拨打,显著地提高了高级用户简历转化率。

继续阅读基于机器学习的高价值用户自动发现

美国统计协会开始正式吐槽(错用)P值啦

(图片来源:https://xkcd.com/1478,一幅讽刺滥用P值的漫画)

今天美国统计协会(ASA)正式发布了一条关于P值的声(吐)明(槽),算起来可以说是近期统计学界的一件大事了。为什么这么说呢?首先,P值的应用太广,所以对P值进行一些解释和声明非常有必要。其次,对P值的吐槽历来有之,但今天是第一次被一个大型的专业协会以非常正式的形式进行澄清,多少带有一些官方的意思。声明的全文可以在这个页面中下载。

那么这则声明里面都说了什么呢?小编整体读了一遍,把我认为重要的信息概括在这篇文章之中。

首先,ASA介绍了一下这则声明诞生的背景。2014年,ASA论坛上出现了一段如下的讨论:

问:为什么那么多学校都在教 p = 0.05?

答:因为那是科学团体和期刊编辑仍然在用的标准。

问:为什么那么多人还在用 p = 0.05?

答:因为学校里还在这么教。

看上去多少有点讽刺的味道,但事实却也摆在眼前。从舆论上看,许许多多的文章都在讨论P值的弊端,小编摘录了几条言辞比较激烈的:

这是科学中最肮脏的秘密:使用统计假设检验的“科学方法”建立在一个脆弱的基础之上。——ScienceNews(Siegfried, 2010)

假设检验中用到的统计方法……比Facebook隐私条款的缺陷还多。——ScienceNews(Siegfried, 2014)

针对这些对P值的批评,ASA于是决定起草一份声明,一方面是对这些批评和讨论作一个回应,另一方面是唤起大家对科学结论可重复性问题的重视,力图改变长久以来一些已经过时的关于统计推断的科学实践。经过长时间众多统计学家的研讨和整理,这篇声明今天终于出现在了我们面前。

P值是什么

这份声明首先给出了P值一般的解释:P值指的是在一个特定的统计模型下,数据的某个汇总指标(例如两样本的均值之差)等于观测值或比观测值更为极端的概率。

这段描述是我们通常能从教科书中找到的P值定义,但在实际问题中,它却经常要么被神话,要么被妖魔化。鉴于此,声明中提出了六条关于P值的准则,作为ASA对P值的“官方”态度。这六条准则算是这条声明中最重要的部分了。

继续阅读美国统计协会开始正式吐槽(错用)P值啦

IMS:一个洲际人际交流网络(为学生免费提供会员资格)

译者注:原文刊登于 IMS Bulletin,作者为国际数理统计学会(Institute of Mathematical Statistics)现任主席郁彬教授。郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

本文由肖楠、尤晓斌和蔡占锐翻译,邱怡轩、郁彬老师校对。

随着我在IMS(国际数理统计学会)的主席任期行将结束,继而成为“前任主席”之际, 我想为吸纳新成员作出努力而回顾 IMS 的作用。正如 IMS 网站所述:“ IMS 的宗旨在于促进统计和概率的理论与应用的发展和传播”。伴随着数据科学的出现,统计和概率思维在数据科学中扮演着越来越出众的角色,而 IMS 能否吸引更多的成员也变得至关重要。尤其是在诸如统计,概率,应用数学,计算机科学,电子工程和其他数据科学相关学科行将获得学历的人才,都将成为IMS的关注对象。对于这些年轻人而言,他们有一大部分职业生涯会在本职工作岗位,而另一部分将会是在诸如 IMS 等专业学会中。

IMS 是个什么样的组织呢?回忆一下 IMS 的起源将会让我们更好地认识它。1930 年,Annals of Mathematical Statistics(数理统计年刊)成立。随后的 1935 年,在密歇根大学统计教授 Carver 的努力下促成了 IMS 独立于 ASA(美国统计协会)而组建,以帮助数理统计学家建立联系的纽带。1938 年,年刊的编委会由诸多重量级统计学者组成,Wilks(主编),Fisher,Neyman,Hotelling,Pearson,Darmois,Craig,Deming,von Mises,Rietz,Shewhart 均在编辑之列。1973年期刊被分为两份刊物,一为 Annals of Statistics(统计学年刊),另一为 Annals of Probability(概率论年刊)。之后,Statistical Science(统计科学),Annals of Applied Probability(应用概率论年刊)及 Annals of Applied Statistics(应用统计学年刊)随之创立。此外 IMS 也和其他学术组织合作创办了期刊,例如 Electronic Journal of Probability(概率论电子期刊),the Electronic Journal of Statistics(统计学电子期刊),the Journal of Computational and Graphical Statistics(计算机及图形统计期刊),Probability Surveys(概率论与统计调查)以及 Statistics Surveys(统计学与统计调查)。从一开始,IMS 的重点就在高质量的期刊上。今天,IMS 已有更多重点,包括举办主要学术峰会和颁发统计概率领域重要奖项

继续阅读IMS:一个洲际人际交流网络(为学生免费提供会员资格)

[朝花夕拾] 迎接信息时代的统计挑战

本文略有修改,原文请点击此处

本文作者为俄亥俄州立大学的施涛。他把自己读郁彬老师的综述性文章:Embracing Statistical Challenges in the Information Technology Age的读后感和大家分享。

世事变迁,最近居然忽然有时间坐下来读些东西,重新审视一下这几年统计领域的发展了。粗略回想了一下,惭愧地发现我好像连博士导师的文章也没有系统地读过几篇,只是和自己研究有关的才详细夜读过。于是把她的一些老文章翻出来认真读读,了解一下她对统计研究和学科发展的观点。

木然回首,那文已在灯火阑珊处。2007年时她写过一篇综述性文章:Embracing Statistical Challenges in the Information Technology Age, Bin Yu (2007) Technometrics, 49(3), 237-248。摘要如下: 继续阅读[朝花夕拾] 迎接信息时代的统计挑战

一起来投SCI吧:谈谈我的第一篇JSS论文

Journal of Statistical Software简介

Journal of Statistical Software(JSS)创建于1996年,该杂志的出版物主要包括论文、书评、代码片段以及关于统计学软件和算法的测评。其中,论文是发表最多的类型,截止发稿时为止(2013.03.04),官方数据显示该杂志总共发表论文565篇,代码片段37篇,书评110篇,软件测评6篇。在该杂志发表论文是免费的,并且论文及其附带的源代码都是可以从网上免费获得的,遵守CCAL和 Creative Commons GNU GPL许可。(注:只有论文和代码片段的源代码是和论文一起公开发表的。)

那么什么样的论文可以发到JSS上呢?笼统地说,只要和统计软件(统计语言)沾边的都可以发。JSS注重的是统计方法的实现,而不是你所用的统计方法是否具有独创性,也就是说,不需要你对统计方法有什么创新,只需要你用代码把某个统计方法实现出来,当然最好是别人还未实现过的。这样一来事情就变得简单多了,比如你可以仔细研读某大牛发表在世界某知名杂志上的统计方法,然后照着葫芦画瓢写个R包投到JSS上去,只要你写的方法别人还没实现过你就很有可能中标。比起辛辛苦苦推导数理公式,发明新的统计方法,写代码应该简单多了吧:) 但就是这么简单的活也能发SCI,而且影响因子排名还很靠前,你说这事还有天理么?!

JSS支持的语言形式也多种多样,你可以用C, C++, S, Fortran, Java, PHP, Python, Ruby, Mathematica, Matlab, R, S-PLUS, SAS, Stata等等,但绝大多数的论文都是关于R语言的。JSS的影响因子分数近几年来一路飙升,这跟R语言的崛起有密不可分的关系。

JSS的论文有一个LaTeX模板,论文要严格按照给定的格式来写,格式不对的话论文不会被审阅。当然你也可以用Sweave,希望不久的将来也能支持knitr。

关于我的论文

我的硕士专业是”质量控制“(为啥选这专业呢?此处略去200字。)。写这篇论文的想法来源于某个学期开的一门叫做“控制图”的课,课上讲到了‘控制图的经济设计’,但是发现当时没有软件能做这个分析,于是翻阅了十几篇这方面的论文,把理论搞清楚后,写了个R程序。程序的主体写起来并不难,不用一周就写好了。然后几经修改打了个包投到了CRAN上。再然后就是教授建议我写篇关于该R包的文章投到JSS上去。由于文章结构很清晰,用了三天时间就把主体起来了。

经过长达10个月的漫长等待,我在JSS上发的论文终于发表了。首先发现这个的是益辉哥,真不知道这些牛人天天都干么,JSS上发篇论文他都能注意到!牛人总是有些与众不同的地方。下面我大体讲讲这篇论文讲的啥。(外行看起来貌似还挺像那么回事儿,图文码并茂,内行一看就傻眼了,这么简单!淡定……)

这篇论文是关于质量控制方面的,大家肯定听说过控制图(Control Chart)吧,有X-bar, Cusum, Ewma等。我这篇论文讲的是‘控制图的经济设计’,就是从经济学角度出发,找到使期望成本最小的控制图参数。说白了就是个最优化问题,一个方程f(x,y,z),找到使f值最小的x,y,z的取值。简单吧……但是发论文嘛,我们就要把简单的事说的麻烦一点,所以添加上各种引用,各种公式就看上去比较专业了。

这篇论文的题目是:edcc: An R Package for the Economic Design of the Control Chart,这题目是参考了别人的,好多论文的题目都是这么个格式,PackageName: An R package for XXX,你要是想图方便这么写准没错。该论文大致分6部分,简介,理论概述,R包说明,有效性确认,例子,总结。关于R包的论文也都大致都是这么个结构,写之前可以多下载几篇论文做参考。

这论文理论也不繁琐,也没什么创新为啥能被发表?原因很简单,这东西在R里没人写过。质量控制这门学科有点交叉学科的味道,这方面的理论已经很难有创新了,统计学家们不会去关注它,而工科方面应用控制图的工程师们又不会去关注统计,更不会去写个关于控制图的R包,这就导致了我有机可乘。所以要是急着发论文的同学我建议你去看点冷门点的交叉学科的东西,不要哪里热往哪钻。题外话,我女朋友最近搞基因统计,先是各种专业术语,再是推导各种公式,最后是大数据的模拟,一个项目做下来一年都快过去了,伤不起啊。不过人家玩的是真家伙……

审稿过程

如果你看了JSS的主页,可能已经注意到了,大多数论文的审核时间是一年,快的话半年或者更短。但是论文被接收以后并不会立即发布出来,还要等一段时间才会发出来。我的论文是12年10月29号接受的,到了2013年2月中旬才发出来。

首先提交你的原稿,总主编会选一个编辑负责审阅你的论文,然后编辑又会选择两个审稿人来审阅你的论文。审阅者会检查论文的结构是否清晰,软件是否有用;论文的理论部分是否正确,是否有价值,如果理论部分发表在了别的杂志上,需要对理论进行简单地叙述;论文的代码部分是否能正常运行;软件(代码)是否有需要改进的地方。

初审大约要耗时3周,最后会给你一个决定:reject、revise或者(conditional)accept。如果被拒绝了你就木有机会了。如果是有问题需要修改的话,给你的邮件里会附加评审员给你提的建议(也会有编辑的建议),你要认真得一条一条得修改,然后分别给每个评审员一个答复。修改好再次提交,如果还有问题就反复修改提交。

最后你会得到一个接收的决定,这距离提交原稿可能已经过去了很久很久,耐心点等吧。

下面是我论文的审稿经历:

  • 12.4.03提交初稿;
  • 12.4.24返回初次审稿决定,revise,原因是论文的格式问题;
  • 12.4.25第二次提交;
  • 12.7.21返回第二次审稿决定,ACCEPT MINOR,原因是论文例子太老,R包某些函数讲解不细致;
  • 12.8.24第三次提交;
  • 12.10.25返回第三次审稿决定, Conditional Acceptance.

我论文的编辑和审稿人都非常好,很耐心细致得帮我检查论文中的问题。我的指导教授也很用心,每次我改过论文之后,他都会从头到尾仔细地阅读一遍,给我检查错误或者给我建议。自己一个人闯首尔,能遇上个好教授真是欣慰啊。

英文论文没那么难

不知道是不是有同学怀疑自己的英语水平。我来帮你打破这个悬念。你过英语六级了么?过了,那么好,你写英文论文肯定没问题。我们中国学生的英文底子很好的,要有点自信。以前我也没自信,后来跟韩国人一比,自信多了……

总结

该文主要讲了下JSS的投稿问题,不知道我有没有讲清楚。天生语文不及格,各位客官多包涵^^ 如果还有没有讲清楚的地方可以给我留言或发邮件,尽量给您解答清楚。各位码农们兄弟们,还等啥,操起键盘来写呗!

感谢语

这里我所说的话不是出于形式或者好看,而是肺腑之言。我要感谢COS,一路陪我走来,让我学到了很多很多,结识了很多很多的朋友。我要感谢益辉哥,星星点灯,大牛照亮我前程……