《R语言编程艺术》即将上市

R语言编程艺术

《R语言编程艺术》

由统计之都的几位成员翻译的《R语言编程艺术》终于就要面市了。本书的译者有陈堰平邱怡轩潘岚锋熊熹,负责校审的有林宇、严紫丹、程豪。这里有本书的译者序,读者可以在本页下载数据代码。读者可以在本页留言提问,我们也会在这里公布本书的勘误。想查找更多好书,请看图书出版频道。

内容推荐

本书是R语言领域公认的经典著作,著名计算机科学家兼统计学家撰写,Amazon五星级畅销书。它是一本面向R语言开发者的纯编程类书籍,不需要读者具备统计学基础,从编程角度而非统计学角度系统讲解了R语言的数据结构、编程结构、语法、TCP/IP网络编程、并行计算、代码调试、程序性能优化、编程技巧以及R语言与其他语言的接口等所有与R编程相关的知识,几乎面面俱到。本书的实用性也非常强,44个精选的扩展案例,充分展示了R语言在数据处理和统计分析方面的强大能力。

全书一共16章:第1章介绍了学习R语言需要掌握的预备知识以及它的一些重要数据结构;第2~6章详细讲解了R语言的主要数据结构,包括向量、矩阵、数组、列表、数据框和因子;第7~13章全面讲解了R语言的语法,包括编程结构、面向对象特性、数学运算与模拟、输入与输出、字符串处理、绘图,以及R语言的调试方法。第14~16章讲解了R语言编程的高级内容,如执行速度和性能的提升、R语言与C/C++或Python的混合编程,以及R语言的并行计算等。

本书核心内容:

  • R语言的完整语法以及R语言的编程技巧。
  • 创建精美图形来展示复杂数据和函数。
  • 使用并行计算和向量化的方法编写更高效的代码。
  • 使用R对C/C++和Python的接口来提高计算速度或增加功能。
  • 文本分析、图像处理等领域新的R包。
  • 使用高级调试技巧清除代码里恼人的错误。
  • 包含许多“扩展案例”,展示完整的、特定用途的函数,并针对同一个问题讨论了不同的设计方案,以便分析高效准确的做法。
  • 在恰当的时候介绍R语言与其他语言的差异,给那些了解其他语言的开发人员提供参考。

Continue reading

《ggplot2:数据分析与图形艺术》现已上市

ggplot2

ggplot2:数据分析与图形艺术

由统计之都操刀翻译的《ggplot2:数据分析与图形艺术》一书已经上市了。这本书的译者包括邱怡轩(第1~2章)、主伟呈(第3~4章)、肖楠(第5~6章)、高涛(第7~8章)、潘岚锋(第9章)、魏太云(第10章、附录以及翻译过程的协调安排和全书的LaTeX排版工作)。谢益辉为本书写了译者序

内容推荐

ggplot2 是R中新颖的数据可视化包,功能强大、灵活便捷,其灵感源自 Leland Wilkison的《图形的语法》一书。使用 ggplot2 可以轻松实现:

  • 高质量图形的绘制,自动化添加图例。
  • 叠加来自不同数据源的多个图层(点、线、地图、瓦片图、箱线图等),自适应通用标度。
  • 利用 R 强大的建模功能添加平滑曲线,如 loess 、线性模型、广义可加模型和稳健回归。
  • 保存任意ggplot2 图形,方便修改或重复使用。
  • 制作主题,满足内部定制或杂志风格的需求,便捷地应用到多幅图形上。
  • 从视觉角度上审视你的图形,斟酌每一部分数据如何呈现在最终图形上。

如果你想将枯燥的数据转化为生动、形象的图片,本书绝对大有裨益。你需要了解 R 的基本知识(比如如何将数据导入到R),不过 ggplot2 是专门为绘图量身打造的“迷你语言”,在本书中你就可以学到你需要的所有知识。在阅读完本书之后,你就可以针对你的问题绘制出精确定制的图形,并且发现将脑海中的图片绘制在屏幕上已经变得轻而易举了。译者亲切地称之为“玩转数据可视化的瑞士军刀!”

目录

1. 简介
2. 从qplot开始入门
3. 语法突破
4. 用图层构建图像
5. 工具箱
6. 标度、坐标轴和图例
7. 定位
8. 精雕细琢
9. 数据操作
10. 减少重复性工作
附录A 不同语法间的转换
附录B 图形属性的定义
附录C 用grid操作图形

上海R用户沙龙会议纪要(May 11, 2013 @联合创业办公社)

春光旖旎,眼瞅着几天之后就要在北京举行声势浩大的第六届中国R语言会议了。想着大家因为各种各样的原因可能届时无法到场参会,所以上海的童鞋们抓紧大会前的宝贵时间,自然是要把上海这边奉送的高质量报告先睹为快。所谓近水楼台先得月嘛。同时也是为了几天之后的会议造造声势,有什么不好么?

沙龙进行中...

沙龙进行中…

沙龙依旧沿袭上海一贯的小资风格,跑到联合创业办公社位于昌平路的二期创业社,躲着下午刺眼的阳光,享受着周末美好的闲聊。一开始,依惯例是大家的自我介绍时间。上海的沙龙参与者以业界的朋友为主,大概也迎合了近期R语言在业界快速发展的趋势。从互联网企业,到制药、咨询、金融,还有很多小编以前都没有听说过的行业都有高朋莅临。此外,还有来自浙江大学的杭教授激情饱满的为我们介绍了浙大即将开设的与数据分析相关的专业,目标就是培养业界(尤其是金融业)需要的数据分析人才。席间还有学界业界兼得的大牛挥斥方遒,瞬间觉得,从业界到高校到科研院所,数据分析真是无孔不入。我们是否可以开始期待一场产业革命了呢?
Continue reading

第六届中国R语言会议(北京会场)日程发布

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了五届R语言会议,促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,我们准备在2013年5月18-19日在北京举行第六届中国R语言会议(北京会场)。

最新会议日程安排已经发布,请查看会议页面 http://cos.name/chinar/chinar-2013/

数据科学的威胁

本期投稿:谢益辉 肖楠 林荟

如果我们不变革的话,数据科学对我们(生物)统计将是一个威胁Jeff Leek说。

Larry Wasserman问,数据科学会不会是统计学的终结者呢?媒体铺天盖地的谈论大数据,数据挖掘。人们现在可以谈论数据全然不需要知道这个世界上还有一门学科叫做“统计”。没有误差分析,不需要检验假设的“数据分析”是不是统计的终结?统计该归于计算机还是数学?为什么统计会被边缘化?我们该如何对待?

经济学家Carmen Reinhart和Kenneth Rogoff在2010年写了一篇论文称国债占GDP百分比超过90%的国家的经济增长率中位数比那些低于90%的国家大约低1%。可是后来Mike Konczal总结了另外三位作者指出的这两位童鞋的三个错误:选择性纳入样本、不符常规的加权以及数据处理(Excel表格)错误。计量经济学家们,你们的鼠标在Excel中一拖一拉,全球国家都要跟着抖一抖。

KDD Cup 2013 竞赛本周上线。竞赛分为两个 track,任务分别是 判断某篇论文是否为某作者所撰写作者重名辨识。回顾 2012 年的社交网络个性化推荐和 pCTR 点击率预估任务,今年的数据集相对较小,且相关研究起步较早。本次竞赛将于 2013 年 6 月 12 日结束提交,历时约两个月。与此同时,ICML 2013 的三项 Representation Learning 竞赛 也已经启动。

有人说,深情即是一桩悲剧,必得以转换主力语言来句读。这位客官用了十多年的 MATLAB,最后发现老板(R-Core)只让用 R …… 痛苦的涅磐过程,和一个好 IDE 的重要性

咳咳,在最后,小编插播一条小广告:统计之都微信公众帐号本周已经正式开通啦,如果客官想在第一时间得知主站和论坛的精彩内容,以及统计之都的线下活动、竞赛、培训和会议等信息,扫描主站右栏二维码或搜索 CapStat 即可关注。(无聊的时候,欢迎客官调戏那边的小编喔)