R与SAS之争:一个导读

By 胡江堂 @ 2009/01/13
关键词, , , , , 分类推荐文章, 统计软件
作者信息:胡江堂,行业/职业:医药/SAS程序员;教育背景:经济学->软件工程;学术兴趣:数据挖掘-商务智能,信用评分-数量金融、SAS-应用统计;个人主页:http://jiangtanghu.com/
版权声明:本文版权归原作者所有,未经许可不得转载。原文可能随时需要修改纰漏,全文复制转载会带来不必要的误导,若您想推荐给朋友阅读,敬请以负责的态度提供原文链接;点此查看如何在学术刊物中引用本文

现在R与SAS社区里,最热闹的大概是源于《纽约时报》的一篇文章而引发的R与SAS之争。

2009年1月7号,《纽约时报》科技版登了一篇注定要引起四方瞩目的文章, Data Analysts Captivated by R’s Power(1月6号就有网络版),作者是该报的记者Ashlee Vance。这大概是开源统计软件包R,自1996年诞生以来,第一次出现在公众视野,而且是出现在《纽约时报》这样的主流媒体。这篇文章里有一句,让R社区和SAS社区都颇为兴奋,而且有很多私人博客也积极跟进:

The popularity of R at universities could threaten SAS Institute.

R软件的兴起,可能会威胁到SAS公司在数据分析领域的地位。

报道中有对SAS公司一位市场总监Anee Milley的采访。Anee Milley的一句回应也注定要引来不少争议(甚至是公关危机):

We have customers who build engines for aircraft. I am happy they are not using freeware when I get on a jet.

我们有一些客户,为整机制造引擎。当我乘机时,很高兴他们没有使用免费软件(来设计引擎)。

1月7号中午,就有用户在全球最主要的SAS论坛SAS-L发贴,提醒大家注意这篇报道。目前,这个帖子的跟贴不断,是目前SAS-L中最火的帖子,其中有不少R软件的支持者发言。SAS-L的大多活跃用户都是一些SAS老手,用SAS几十年,在最近的工作中意识到R的好处,所以对SAS与R的融合比较感兴趣。

1月7号晚上,在活跃的邮件组R-help里,也在开始讨论这篇报道。同样,它也成了该邮件组最具人气的讨论,很多R支持者欢呼R的胜利。不过,其间似乎缺少SAS支持者的声音。

1月8号下午,Ashlee Vance在他的《纽约时报》博客里,对读者提出的一些问题作出了回应,R You Ready for R。现在已经有近30条条读者评论,其中不凡长期活跃在统计社区里的知名专家的长篇评论,像SAS for Dummies的作者Stephen McDaniel。出现在这篇引人注目的报道的另一位主人公,SAS公司的Anee Milley,在上面也有发言。

1月9号下午,SAS社区的另一个活跃用户组SAS Consulting,由Ashlee Vance的博文引起,也展开了一场关于R和SAS的大讨论。毫无悬念,它也成了近期最为显眼的帖子。我的感觉是,SAS用户很多也是R的关注者,但R用户,相对而言,对SAS的关注以及了解程度,稍显不如(这一条欢迎大伙指正),——不过,这条也很可能是R占优的一个证据:多数人是先学SAS,再学R,于是两者皆熟;而一开始就学R的,可能对SAS的兴趣不够足。还有一个原因,我想,跟用户的背景有关,SAS支持者多在工业界,而R的支持者似乎学术界多些,软件获得的便利程度也不一样。还有,R的支持者似乎有一种类似Apple迷的气质,扯远了。

还是9号,出现在这篇引人注目的报道的另一位主人公,SAS公司的Anee Milley,在SAS的官方博客作出声明,This Post Is Rated R,认为她跟《纽约时报》半个小时的访谈,只有一两句断章取义的话语见诸报端,并重申了她与SAS公司对开源软件的看法(支持、参与)。

与此同时,很多个人博客就这个话题持续跟进。你可以在Google Blog Search找到更多的文章,比如:

一篇有趣的博文来自Ajay OhriTop ten RRReason R is bad for you?,开玩笑提到:

R programmers are lesser paid than SAS programmers.

It is free. Your organization will not commend you for saving them money- they will question why you did not recommend this before. And why did you approve all those packages that expire in 2011.R is fReeeeee. Customers feel good while spending money.The more software budgets you approve the more your salary is. R thReatens all that.

Andrew Gelman认为,这是SAS公司面对一次健康的竞争的好机会,Equal time for SAS

讨论正在持续中,我们不妨继续跟进。目前,各方的言论可以分为四类:

-SAS优势说:处理海量数据,数据管理,并行计算,广泛的工业界认可,客服,文档
-R优势说:免费,新算法,矩阵语言,作图,最近的广泛流行
-SAS和R融合说:R的兴起,使数据分析的意识更为深入人心;在SAS里运行R;同时使用R和SAS;
-我是出来打酱油说:Ooops

粗略看去,R的不足刚好是SAS所长,反之亦然。我个人期待它们有更多的融合。与SAS Proc SQL、Proc IML类似,一个Proc R将会非常有趣。这场争论,在网络上公开的,只是冰山一角,它的意义可能过几年才能显现出来。其他厂商,如IBM、SPSS、WPS、S-Plus等,一定也在密切观察此事。开源软件有个特点,到了某个临界点,其爆发速度就会超乎人们的想象。

相关文章

28 Responses to “ R与SAS之争:一个导读 ”

  1. ypchen on 2009/01/13 at 12:16

    什么时候才是R的临界点呢

  2. lixiaoxu on 2009/01/14 at 14:02

    代码开源不等于服务免费、开发者无报酬。linux和Open Office是开源的。基于linux的服务器搭建与维护是很大产业,已经有成功的上市公司从事这方面主业。目前,Linux和Open Office主要的代码量是由受雇于大公司的程序员开发完成。SAS研究所大可反客为主,投资于R相关的产业。

  3. 胡江堂 on 2009/01/14 at 17:33

    有厂商在行动啦,据说IBM就有一个内部版的R,不知其可。

  4. shige on 2009/01/15 at 01:15

    说R用户象apple迷实在是太离谱了。R代表的是自由精神(所以在学术界更容易被接受),与Linux, Emacs等自由软件神似;Apple则不过是另外一个专有软(硬)件供应商,Apple的用户则花大把银子购买并以此为荣。这二者哪里相象了?

  5. zstbee on 2009/01/15 at 18:26

    正好去年一年间,我们公司也在选型数据挖掘和处理的平台。
    当时也算是比较完成的衡量了SAS和R的SWOT,摘一小段,供大家消遣:

    R的最大优势,便宜!
    R的最大劣势,单机,内存计算

    综合评价:大学里的教学利器,或者公司实验部门的探路者;

    SAS的最大优势,完善的商业服务体系
    SAS的最大劣势,贵得要死!

    综合评价:有钱人的面子货,或者真正需要海量数据处理、并且能赚到大钱的商业公司

  6. 胡江堂 on 2009/01/16 at 11:44

    呵呵,我说“R的支持者似乎有一种类似Apple迷的气质”,说的自然不是免费或收费。我的观察,R的支持者跟Apple迷的类似之处,是在网络上非常活跃,非常有激情去捍卫这个东西,这种激情可能会忽略一些东西,比如对竞争产品的关注。

    —–
    这次纽约时报事件,除了广大用户,SAS、SPSS、S-Plus(被Tibco收购)等公司都非常关注。在上面提到的记者博客里,有这几个公司的高级员工的留言,不妨一看:

    http://bits.blogs.nytimes.com/2009/01/08/r-you-ready-for-r/?apage=2#comments

  7. bjt on 2009/01/18 at 19:32

    现在是假期,不然又是一场血雨腥风,嘿嘿。

  8. eijuhz on 2009/01/20 at 22:14

    我个人的感觉是:
    如果你要找好工作,那应该学好SAS;
    如果你要读统计PHD,那应该用好R;
    有了R+SAS+EXCEL打遍天下都可以

  9. 文穗(winslow) on 2009/02/01 at 10:07

    in my view, a general-purpose scripting language, such as python or perl, can be used to do data processing or reporting instead of SAS.
    R alone can not replace SAS. However, a combination of several open-source languages is able to take care of 80-90% of major functionality in SAS.
    Just my $0.02.

  10. 胡江堂 on 2009/02/05 at 10:44

    FYI:SAS将引入R的接口

    IML是SAS的矩阵语言。SAS/IML Studio(现在的名字叫SAS Stat Studio)是基于IML的可视化矩阵编程环境,将要在今年加入跟R交互操作的接口。具体见:

    http://support.sas.com/rnd/app/studio/Rinterface2.html

    好消息。IML是跟R类似的矩阵语言,它们的融合应该很被看好。还有,传说中的PROC R的推出,也指日可待。

  11. 郑冰: | 统计之都 on 2009/02/22 at 22:51

    [...] R与SAS之争:一个导读 [...]

  12. lovebluesky on 2009/05/22 at 09:30

    r啊r

  13. yiyuanfushi on 2009/05/31 at 09:05

    我觉得R比SAS容易学~~~

  14. M.K on 2009/06/03 at 23:37

    The Associate Professor Ross Ihaka at the University of Auckland正在開發一個叫做”L”的新軟件,請期待。

    • 谢益辉 on 2009/06/04 at 00:13

      有没有更详细的信息啊?L是干什么的?我看Ross Ihaka对R的速度和数据处理能力似乎有所不满,难道是要改变这个状况?……谢谢!

  15. M.K on 2009/06/04 at 00:56

    神人你好:D

    教授他說他已經對R沒有太大的興趣了,他說R好像沒有太大的進步空間,所以he’s working on something new.
    我明天問問看他吧,你有什麼想知道的嗎?我順便問問。

    • 谢益辉 on 2009/06/04 at 21:53

      我从他的个人主页上也了解到他对R的一些看法了,不知道他开发L是不是为了克服R的缺点。现在有没有测试版放出来?

  16. biotat on 2009/06/05 at 22:27

    我还是比较支持在SAS里融合R,正如上面所说外加一个过程,PROC R…

  17. M.K on 2009/06/05 at 22:33

    今天問過教授,他說他覺得R運算太慢,在目前的測試中,新的程式大概是R的400~600倍左右(同樣的function)。
    他說因為R現在用的是”Call by value”,他想改成”Call by reference”,這樣在運算上會加快很多
    他還說在data handling上面,現在只要data set超過大概1GB,R就跑不動,他希望在這點上面加強。
    不過他最後也說了,要在等10年(that’s how long R took)…….不過新的程式也會是免費的。

    • yanlinlin82 on 2009/06/05 at 22:57

      如果用“Call by reference”的话,的确能够省掉很多拷贝数据的时间,尤其是很大的数据。但是恐怕今后写函数时就得注意修改了参数的值以后,外部的变量也就变化了。
      我没有研究过现在R的源码,不知道它是不是每次调用函数都会把每个参数都拷贝一份。如果它使用了“Copy on write”机制的话,应该也能省掉很大一块时间,估计能跟“Call by reference”差不多。
      不过,即使它现在没有用这种方式,我想也完全可以在底层实现上改进为这种方式的,对上层应用也不会造成影响。大概不需要单因为这个就重新设计一个语言吧。

      • M.K on 2009/06/05 at 23:23

        我不清楚,他可能沒事做吧,而且他是其中一個學生的博士PROJECT。

  18. 左伊秩訾 on 2009/06/07 at 16:43

    学好R,学好SAS

  19. tjbo on 2009/06/24 at 18:14

    本来对R不是很感兴趣,了解stata,想着应该是类似的吧。看了楼主的帖子,我决定好好学习R,摸不准将来会怎样。

  20. lsyizls on 2009/10/05 at 23:21

    用R也有一段时间了,感觉命令式语言除了界面不够有好外,其余的都还不错。尤其是编程方面,在有MATLAB和C的基础上,R的编程显得简单明了,尤其是对数组和矩阵的操作,和MATLAB不相上下(当然谈矩阵计算的话,MATLAB还是不可超越的神话)。R适合教学,但因为编程过于自由,不可避免缺少权威性,但这也恰恰是它的魅力所在。国内统计系的情况笔者不太清楚,但在笔者所在的学校,统计系的每一个学生都对R情有独钟。它的自由精神深入到每一个人的心中。希望R越来越好,能有越来越多的人为它做出贡献,丰富我们的统计学世界!

    • 谢益辉 on 2009/10/05 at 23:26

      哇,R版的《独立宣言》! :-D

  21. R乌乎在? « 丽·江行 on 2009/12/06 at 16:21

    [...] 年初在“统计之都”灌了个水,跟踪《纽约时报》关于R的一个报道,以及此事在R社区与SAS社区的反应,要知道,那是自1996年诞生以来,R第一次出现在公众视野。R也好,SAS也好,都工具而已,不过某个东西用熟了,它本身也就有趣味来,故后世有刀剑之争。呵呵,我们都未能免俗。 [...]

  22. peach on 2009/12/16 at 04:44

    另外一个开发者,Robert Gentlemen已经去了Genetech的Bioinfo部门,不过他牵头的Bioconductor还是很红火的。

  23. [...] 这里要单独说下R。R现在被认为是SAS的一个潜在竞争者。SAS公司在细分市场上的主要竞争对手是SAP、Oracle、IBM、Microsoft、Teradata、SunGard、Unica等IT厂商。R对SAS的(潜在)威胁,不是体现在软件本身,而是体现在用户尤其是高校用户上。前面提到,R现在是学院里的标准统计语言。随便揪一个统计系的学生问:“为什么学R”。答:“因为课程项目用。”“为什么课程项目用?”答:“因为老师用。”或者“因为谢益辉在用。” [...]

Leave a Reply

搜索

推荐阅读

有边界区间上的核密度估计

一、一个例子
核密度估计应该是大家常用的一种非参数密度估计方法,从某种程度上来说它的性质比直方图更好,可以替代直方图来展示数据的密度分布。但是相信大家会经常遇到一个问题,那就是有些数据是严格大于或等…阅读全文 »

相关文章

用R也能做精算—actuar包学习笔记(一)

By 李皞

本文是对R中精算学专用包actuar使用的一个简单教程。actuar项目开始于2005年,在2006年2月首次提供公开下载,其目的就是将一些常用的精算函数引入R系统。目前,提供的函数主要涉及风险理论,…阅读全文 »

相关文章

分月存档