标签归档:论文

标题党统计学

如果你是被这个标题骗进来的,那么说明标题党的存在的确是有原因的。在网络高度发达(以及“大数据”泛滥)的今天,数据动不动就是以 GB 和 TB 的级别存储,然而相比之下,人类接受信息的速度却慢得可怕(参见大刘《乡村教师》)。试想一下,你一分钟能阅读多少文字?一千?五千?总之是在 KB 的量级。所以可以说,人们对文字的“下载速度”基本上就是 1~10KB/min。如果拿这个速度去上网的话你还能忍?

既然如此,每天网上有成千上万的新闻、报告、文章和八卦,怎么看得过来呢?没办法,只能先对正文进行一次粗略的筛选——看标题。俗话说得好,这是一个看脸的世界。于是乎,文章的作者为了吸引读者,就要取个足够博眼球的标题,而所谓标题党便是充分利用这种心理,用各种颇具创意的标题来吸引读者的注意。

好了,既然看官已经看到了这里,我就可以承认本文其实也是标题党了。这篇小文并不是要讨论标题党的前世今生,而是研究一个与此有关的统计问题:怎样的标题会更加吸引读者的关注?

这个问题有点太大了,所以我们缩小一下范围。既然是统计问题,就拿自家的一个例子下手吧:做统计学研究的,都得读各种各样的统计论文,那么论文的标题是否会对这篇文章的阅读量产生影响呢?巧的是,美国统计协会期刊(JASA)的网站上正好提供了该期刊旗下文章的下载访问量,所以我们可以以此做一个小分析,来研究一下标题与文章阅读量之间的关系。

可能有读者要问,为什么要使用文章的访问量,而不是引用率呢?这是因为 JASA 在其网站上说明,访问量数值是指从 JASA 官网下载的统计量,不包括从其他途径(比如购买的论文数据库)的来源。在 JASA 网站上,下载文章之前读者能获取到的主要是文章的标题和作者信息,所以访问量的主要驱动因素就是读者在阅读标题和作者之后产生的好奇感,从而减少了数据中的噪音。相反,引用一篇文章,通常是对文章有了充分理解之后产生的行为,这时候标题的作用可能就非常微弱了。总而言之,JASA 文章的下载量可以较好地代表读者在获取了文章的基本信息后对它感兴趣的程度。

jasa

继续阅读标题党统计学

一起来投SCI吧:谈谈我的第一篇JSS论文

Journal of Statistical Software简介

Journal of Statistical Software(JSS)创建于1996年,该杂志的出版物主要包括论文、书评、代码片段以及关于统计学软件和算法的测评。其中,论文是发表最多的类型,截止发稿时为止(2013.03.04),官方数据显示该杂志总共发表论文565篇,代码片段37篇,书评110篇,软件测评6篇。在该杂志发表论文是免费的,并且论文及其附带的源代码都是可以从网上免费获得的,遵守CCAL和 Creative Commons GNU GPL许可。(注:只有论文和代码片段的源代码是和论文一起公开发表的。)

那么什么样的论文可以发到JSS上呢?笼统地说,只要和统计软件(统计语言)沾边的都可以发。JSS注重的是统计方法的实现,而不是你所用的统计方法是否具有独创性,也就是说,不需要你对统计方法有什么创新,只需要你用代码把某个统计方法实现出来,当然最好是别人还未实现过的。这样一来事情就变得简单多了,比如你可以仔细研读某大牛发表在世界某知名杂志上的统计方法,然后照着葫芦画瓢写个R包投到JSS上去,只要你写的方法别人还没实现过你就很有可能中标。比起辛辛苦苦推导数理公式,发明新的统计方法,写代码应该简单多了吧:) 但就是这么简单的活也能发SCI,而且影响因子排名还很靠前,你说这事还有天理么?!

JSS支持的语言形式也多种多样,你可以用C, C++, S, Fortran, Java, PHP, Python, Ruby, Mathematica, Matlab, R, S-PLUS, SAS, Stata等等,但绝大多数的论文都是关于R语言的。JSS的影响因子分数近几年来一路飙升,这跟R语言的崛起有密不可分的关系。

JSS的论文有一个LaTeX模板,论文要严格按照给定的格式来写,格式不对的话论文不会被审阅。当然你也可以用Sweave,希望不久的将来也能支持knitr。

关于我的论文

我的硕士专业是”质量控制“(为啥选这专业呢?此处略去200字。)。写这篇论文的想法来源于某个学期开的一门叫做“控制图”的课,课上讲到了‘控制图的经济设计’,但是发现当时没有软件能做这个分析,于是翻阅了十几篇这方面的论文,把理论搞清楚后,写了个R程序。程序的主体写起来并不难,不用一周就写好了。然后几经修改打了个包投到了CRAN上。再然后就是教授建议我写篇关于该R包的文章投到JSS上去。由于文章结构很清晰,用了三天时间就把主体起来了。

经过长达10个月的漫长等待,我在JSS上发的论文终于发表了。首先发现这个的是益辉哥,真不知道这些牛人天天都干么,JSS上发篇论文他都能注意到!牛人总是有些与众不同的地方。下面我大体讲讲这篇论文讲的啥。(外行看起来貌似还挺像那么回事儿,图文码并茂,内行一看就傻眼了,这么简单!淡定……)

这篇论文是关于质量控制方面的,大家肯定听说过控制图(Control Chart)吧,有X-bar, Cusum, Ewma等。我这篇论文讲的是‘控制图的经济设计’,就是从经济学角度出发,找到使期望成本最小的控制图参数。说白了就是个最优化问题,一个方程f(x,y,z),找到使f值最小的x,y,z的取值。简单吧……但是发论文嘛,我们就要把简单的事说的麻烦一点,所以添加上各种引用,各种公式就看上去比较专业了。

这篇论文的题目是:edcc: An R Package for the Economic Design of the Control Chart,这题目是参考了别人的,好多论文的题目都是这么个格式,PackageName: An R package for XXX,你要是想图方便这么写准没错。该论文大致分6部分,简介,理论概述,R包说明,有效性确认,例子,总结。关于R包的论文也都大致都是这么个结构,写之前可以多下载几篇论文做参考。

这论文理论也不繁琐,也没什么创新为啥能被发表?原因很简单,这东西在R里没人写过。质量控制这门学科有点交叉学科的味道,这方面的理论已经很难有创新了,统计学家们不会去关注它,而工科方面应用控制图的工程师们又不会去关注统计,更不会去写个关于控制图的R包,这就导致了我有机可乘。所以要是急着发论文的同学我建议你去看点冷门点的交叉学科的东西,不要哪里热往哪钻。题外话,我女朋友最近搞基因统计,先是各种专业术语,再是推导各种公式,最后是大数据的模拟,一个项目做下来一年都快过去了,伤不起啊。不过人家玩的是真家伙……

审稿过程

如果你看了JSS的主页,可能已经注意到了,大多数论文的审核时间是一年,快的话半年或者更短。但是论文被接收以后并不会立即发布出来,还要等一段时间才会发出来。我的论文是12年10月29号接受的,到了2013年2月中旬才发出来。

首先提交你的原稿,总主编会选一个编辑负责审阅你的论文,然后编辑又会选择两个审稿人来审阅你的论文。审阅者会检查论文的结构是否清晰,软件是否有用;论文的理论部分是否正确,是否有价值,如果理论部分发表在了别的杂志上,需要对理论进行简单地叙述;论文的代码部分是否能正常运行;软件(代码)是否有需要改进的地方。

初审大约要耗时3周,最后会给你一个决定:reject、revise或者(conditional)accept。如果被拒绝了你就木有机会了。如果是有问题需要修改的话,给你的邮件里会附加评审员给你提的建议(也会有编辑的建议),你要认真得一条一条得修改,然后分别给每个评审员一个答复。修改好再次提交,如果还有问题就反复修改提交。

最后你会得到一个接收的决定,这距离提交原稿可能已经过去了很久很久,耐心点等吧。

下面是我论文的审稿经历:

  • 12.4.03提交初稿;
  • 12.4.24返回初次审稿决定,revise,原因是论文的格式问题;
  • 12.4.25第二次提交;
  • 12.7.21返回第二次审稿决定,ACCEPT MINOR,原因是论文例子太老,R包某些函数讲解不细致;
  • 12.8.24第三次提交;
  • 12.10.25返回第三次审稿决定, Conditional Acceptance.

我论文的编辑和审稿人都非常好,很耐心细致得帮我检查论文中的问题。我的指导教授也很用心,每次我改过论文之后,他都会从头到尾仔细地阅读一遍,给我检查错误或者给我建议。自己一个人闯首尔,能遇上个好教授真是欣慰啊。

英文论文没那么难

不知道是不是有同学怀疑自己的英语水平。我来帮你打破这个悬念。你过英语六级了么?过了,那么好,你写英文论文肯定没问题。我们中国学生的英文底子很好的,要有点自信。以前我也没自信,后来跟韩国人一比,自信多了……

总结

该文主要讲了下JSS的投稿问题,不知道我有没有讲清楚。天生语文不及格,各位客官多包涵^^ 如果还有没有讲清楚的地方可以给我留言或发邮件,尽量给您解答清楚。各位码农们兄弟们,还等啥,操起键盘来写呗!

感谢语

这里我所说的话不是出于形式或者好看,而是肺腑之言。我要感谢COS,一路陪我走来,让我学到了很多很多,结识了很多很多的朋友。我要感谢益辉哥,星星点灯,大牛照亮我前程……