R与SAS之争:一个导读

现在R与SAS社区里,最热闹的大概是源于《纽约时报》的一篇文章而引发的R与SAS之争。

2009年1月7号,《纽约时报》科技版登了一篇注定要引起四方瞩目的文章, Data Analysts Captivated by R’s Power(1月6号就有网络版),作者是该报的记者Ashlee Vance。这大概是开源统计软件包R,自1996年诞生以来,第一次出现在公众视野,而且是出现在《纽约时报》这样的主流媒体。这篇文章里有一句,让R社区和SAS社区都颇为兴奋,而且有很多私人博客也积极跟进:

The popularity of R at universities could threaten SAS Institute.

R软件的兴起,可能会威胁到SAS公司在数据分析领域的地位。

报道中有对SAS公司一位市场总监Anee Milley的采访。Anee Milley的一句回应也注定要引来不少争议(甚至是公关危机):

We have customers who build engines for aircraft. I am happy they are not using freeware when I get on a jet.

我们有一些客户,为整机制造引擎。当我乘机时,很高兴他们没有使用免费软件(来设计引擎)。

1月7号中午,就有用户在全球最主要的SAS论坛SAS-L发贴,提醒大家注意这篇报道。目前,这个帖子的跟贴不断,是目前SAS-L中最火的帖子,其中有不少R软件的支持者发言。SAS-L的大多活跃用户都是一些SAS老手,用SAS几十年,在最近的工作中意识到R的好处,所以对SAS与R的融合比较感兴趣。

1月7号晚上,在活跃的邮件组R-help里,也在开始讨论这篇报道。同样,它也成了该邮件组最具人气的讨论,很多R支持者欢呼R的胜利。不过,其间似乎缺少SAS支持者的声音。

1月8号下午,Ashlee Vance在他的《纽约时报》博客里,对读者提出的一些问题作出了回应,R You Ready for R。现在已经有近30条条读者评论,其中不凡长期活跃在统计社区里的知名专家的长篇评论,像SAS for Dummies的作者Stephen McDaniel。出现在这篇引人注目的报道的另一位主人公,SAS公司的Anee Milley,在上面也有发言。

1月9号下午,SAS社区的另一个活跃用户组SAS Consulting,由Ashlee Vance的博文引起,也展开了一场关于R和SAS的大讨论。毫无悬念,它也成了近期最为显眼的帖子。我的感觉是,SAS用户很多也是R的关注者,但R用户,相对而言,对SAS的关注以及了解程度,稍显不如(这一条欢迎大伙指正),——不过,这条也很可能是R占优的一个证据:多数人是先学SAS,再学R,于是两者皆熟;而一开始就学R的,可能对SAS的兴趣不够足。还有一个原因,我想,跟用户的背景有关,SAS支持者多在工业界,而R的支持者似乎学术界多些,软件获得的便利程度也不一样。还有,R的支持者似乎有一种类似Apple迷的气质,扯远了。

还是9号,出现在这篇引人注目的报道的另一位主人公,SAS公司的Anee Milley,在SAS的官方博客作出声明,This Post Is Rated R,认为她跟《纽约时报》半个小时的访谈,只有一两句断章取义的话语见诸报端,并重申了她与SAS公司对开源软件的看法(支持、参与)。

与此同时,很多个人博客就这个话题持续跟进。你可以在Google Blog Search找到更多的文章,比如:

一篇有趣的博文来自Ajay OhriTop ten RRReason R is bad for you?,开玩笑提到:

R programmers are lesser paid than SAS programmers.

It is free. Your organization will not commend you for saving them money- they will question why you did not recommend this before. And why did you approve all those packages that expire in 2011.R is fReeeeee. Customers feel good while spending money.The more software budgets you approve the more your salary is. R thReatens all that.

Andrew Gelman认为,这是SAS公司面对一次健康的竞争的好机会,Equal time for SAS

讨论正在持续中,我们不妨继续跟进。目前,各方的言论可以分为四类:

-SAS优势说:处理海量数据,数据管理,并行计算,广泛的工业界认可,客服,文档
-R优势说:免费,新算法,矩阵语言,作图,最近的广泛流行
-SAS和R融合说:R的兴起,使数据分析的意识更为深入人心;在SAS里运行R;同时使用R和SAS;
-我是出来打酱油说:Ooops

粗略看去,R的不足刚好是SAS所长,反之亦然。我个人期待它们有更多的融合。与SAS Proc SQL、Proc IML类似,一个Proc R将会非常有趣。这场争论,在网络上公开的,只是冰山一角,它的意义可能过几年才能显现出来。其他厂商,如IBM、SPSS、WPS、S-Plus等,一定也在密切观察此事。开源软件有个特点,到了某个临界点,其爆发速度就会超乎人们的想象。

R与SAS之争:一个导读》有33个想法

  1. 代码开源不等于服务免费、开发者无报酬。linux和Open Office是开源的。基于linux的服务器搭建与维护是很大产业,已经有成功的上市公司从事这方面主业。目前,Linux和Open Office主要的代码量是由受雇于大公司的程序员开发完成。SAS研究所大可反客为主,投资于R相关的产业。

  2. 说R用户象apple迷实在是太离谱了。R代表的是自由精神(所以在学术界更容易被接受),与Linux, Emacs等自由软件神似;Apple则不过是另外一个专有软(硬)件供应商,Apple的用户则花大把银子购买并以此为荣。这二者哪里相象了?

  3. 正好去年一年间,我们公司也在选型数据挖掘和处理的平台。
    当时也算是比较完成的衡量了SAS和R的SWOT,摘一小段,供大家消遣:

    R的最大优势,便宜!
    R的最大劣势,单机,内存计算

    综合评价:大学里的教学利器,或者公司实验部门的探路者;

    SAS的最大优势,完善的商业服务体系
    SAS的最大劣势,贵得要死!

    综合评价:有钱人的面子货,或者真正需要海量数据处理、并且能赚到大钱的商业公司

  4. 呵呵,我说“R的支持者似乎有一种类似Apple迷的气质”,说的自然不是免费或收费。我的观察,R的支持者跟Apple迷的类似之处,是在网络上非常活跃,非常有激情去捍卫这个东西,这种激情可能会忽略一些东西,比如对竞争产品的关注。

    —–
    这次纽约时报事件,除了广大用户,SAS、SPSS、S-Plus(被Tibco收购)等公司都非常关注。在上面提到的记者博客里,有这几个公司的高级员工的留言,不妨一看:

    http://bits.blogs.nytimes.com/2009/01/08/r-you-ready-for-r/?apage=2#comments

  5. 我个人的感觉是:
    如果你要找好工作,那应该学好SAS;
    如果你要读统计PHD,那应该用好R;
    有了R+SAS+EXCEL打遍天下都可以

  6. in my view, a general-purpose scripting language, such as python or perl, can be used to do data processing or reporting instead of SAS.
    R alone can not replace SAS. However, a combination of several open-source languages is able to take care of 80-90% of major functionality in SAS.
    Just my $0.02.

  7. FYI:SAS将引入R的接口

    IML是SAS的矩阵语言。SAS/IML Studio(现在的名字叫SAS Stat Studio)是基于IML的可视化矩阵编程环境,将要在今年加入跟R交互操作的接口。具体见:

    http://support.sas.com/rnd/app/studio/Rinterface2.html

    好消息。IML是跟R类似的矩阵语言,它们的融合应该很被看好。还有,传说中的PROC R的推出,也指日可待。

  8. The Associate Professor Ross Ihaka at the University of Auckland正在開發一個叫做”L”的新軟件,請期待。

    1. 有没有更详细的信息啊?L是干什么的?我看Ross Ihaka对R的速度和数据处理能力似乎有所不满,难道是要改变这个状况?……谢谢!

  9. 神人你好:D

    教授他說他已經對R沒有太大的興趣了,他說R好像沒有太大的進步空間,所以he’s working on something new.
    我明天問問看他吧,你有什麼想知道的嗎?我順便問問。

    1. 我从他的个人主页上也了解到他对R的一些看法了,不知道他开发L是不是为了克服R的缺点。现在有没有测试版放出来?

  10. 我还是比较支持在SAS里融合R,正如上面所说外加一个过程,PROC R…

  11. 今天問過教授,他說他覺得R運算太慢,在目前的測試中,新的程式大概是R的400~600倍左右(同樣的function)。
    他說因為R現在用的是”Call by value”,他想改成”Call by reference”,這樣在運算上會加快很多
    他還說在data handling上面,現在只要data set超過大概1GB,R就跑不動,他希望在這點上面加強。
    不過他最後也說了,要在等10年(that’s how long R took)…….不過新的程式也會是免費的。

    1. 如果用“Call by reference”的话,的确能够省掉很多拷贝数据的时间,尤其是很大的数据。但是恐怕今后写函数时就得注意修改了参数的值以后,外部的变量也就变化了。
      我没有研究过现在R的源码,不知道它是不是每次调用函数都会把每个参数都拷贝一份。如果它使用了“Copy on write”机制的话,应该也能省掉很大一块时间,估计能跟“Call by reference”差不多。
      不过,即使它现在没有用这种方式,我想也完全可以在底层实现上改进为这种方式的,对上层应用也不会造成影响。大概不需要单因为这个就重新设计一个语言吧。

      1. 我不清楚,他可能沒事做吧,而且他是其中一個學生的博士PROJECT。

  12. 本来对R不是很感兴趣,了解stata,想着应该是类似的吧。看了楼主的帖子,我决定好好学习R,摸不准将来会怎样。

  13. 用R也有一段时间了,感觉命令式语言除了界面不够有好外,其余的都还不错。尤其是编程方面,在有MATLAB和C的基础上,R的编程显得简单明了,尤其是对数组和矩阵的操作,和MATLAB不相上下(当然谈矩阵计算的话,MATLAB还是不可超越的神话)。R适合教学,但因为编程过于自由,不可避免缺少权威性,但这也恰恰是它的魅力所在。国内统计系的情况笔者不太清楚,但在笔者所在的学校,统计系的每一个学生都对R情有独钟。它的自由精神深入到每一个人的心中。希望R越来越好,能有越来越多的人为它做出贡献,丰富我们的统计学世界!

  14. 另外一个开发者,Robert Gentlemen已经去了Genetech的Bioinfo部门,不过他牵头的Bioconductor还是很红火的。

发表评论

电子邮件地址不会被公开。 必填项已用*标注