第七届中国R语言会议(广州)纪要【含演讲资料】

本文作者:江彩霞,中山大学数学与计算科学学院统计学专业研究生二年级

第七届中国R语言会议(广州会场)于2014年11月15日在中山大学南校区网络中心讲学厅成功召开,由华南统计科学研究中心、中山大学数学与计算科学学院、统计之都共同筹办。参会者齐聚一堂,上午就R语言在互联网金融、数据科学、GIS技术、数据分析协作平台以及量化投资等方面中的应用进行了深入的探讨,下午对基于R的统计分析软件、Topic Modeling、R对非结构化数据的处理以及R在游戏等行业的一体化应用等内容进行了深刻的交流。会后,参会者们自发合影留念,共同庆祝中国R语言会议首次在华南地区顺利举行。

会议概况

本次会议报名分三个阶段,报名情况非常火爆,报名人数超过900人,约有 500多名参会者前来参会,分别来自一百六十多家单位,包括四十多家高校与研究机构和近一百二十家企事业单位。参会人员及单位汇总详见会议纪要参会人员与单位部分。

会议内容

本次会议交流的主题涵盖了R语言在互联网、统计、金融和生物技术等方面应用的最新进展,共包含12场特邀报告,其中上午5场,下午7场。会场现场反响热烈,座无虚席,众多背景各异、行业不同的人以R软件为纽带,共享了一场关于R语言和统计分析的盛会。 继续阅读

COS沙龙第23期(北京)

 IMG_6442

2014年11月23日,第23期COS沙龙(北京站)在北京大学光华管理学院顺利举行。各位统计爱好者、投资从业者纷纷前来,积极探讨,共同完成了一场主题为“量化投资中的资金管理问题”的精彩分享沙龙。本次沙龙由人大统院本科生吕翔主持,嘉宾是量客投资副总经理刘岩草先生。

继续阅读

COS每周精选: PM2.5的数据可视化

本期投稿:王威廉 冷静  蔡占锐 王小宁

编辑:王小宁

数据可视化

身在北京的小伙伴么是否还怀念“APEC蓝”的那些日子,你是否还在为度过38年来最长寒假而不知去哪里玩,小编觉得去哪里玩先看看哪里的PM2.5,你说对吧,最近发现了一个实时展现世界各地PM2.5,你是不是也利用它来可以告诉你不同地方的亲戚朋友出门记得戴口罩呢?

R计算

你是否还在为高数课本上的一道道导数计算题而不知所措,其实R也可以帮你做这些作业哦。

继续阅读

COS每周精选:机器学习哪家强?

本期投稿: 冷静  蔡占锐  王小宁

编辑:王小宁

机器学习

 很多人在学习机器学习,但是这里面也有误区,你知道么?机器学习的资料也不断的出现,到底有哪些机器学习中深度学习的资料供我们学习,小编搜罗了一下,供大家参考。许多同学对于机器学习及深度学习的困惑在于,数学方面已经大致理解了,但是动起手来却不知道如何下手写代码。斯坦福深度学习博士Andrej Karpathy写了一篇实战版本的深度学习及机器学习教程,手把手教你用Javascript写神经网络和SVM。

概率计算

继上次Karl Broman的袜子事件之后,又有人给出了更多的概率计算,看这趋势,估计某些同学下一次的概率论考试也许就有算袜子概率的题目了。

统计分析

一个自动统计分析机器人,扔进去数据就出来报告,目前似乎只支持全是数值变量的数据,而且只有线性回归分析。小编在想这东西可以用Shiny在R里面写一个玩玩啊,不知道是否有客官感兴趣。

继续阅读

jiebaR中文分词——R的灵活,C的效率

本文作者:覃文锋,厦门大学公共卫生学院本科生,研究兴趣为生物统计和数据挖掘。

主页:http://qinwenfeng.com/cn/jiebaR-dev/

R是什么?

记得刚接触R的时候,有一种莫名的抵触,A、B、C、D、E那么多种语言了,为什么又多冒出来一个R?为了时间序列的课程,我又要多记忆一大堆乱七八糟的语法。当发现居然有dd<-23333 23333->ee 这样的语法时,更瞬间奠定了R语言在我心中的逗比地位。

因为老师没有专门教授R的相关细节,毕竟课程的主题不是那个,加之R的语法与众不同,这导致我的R语言相关作业的绝大部分时间一般都在百度、谷歌各种R语言的表达、实现方法中度过。

记得有位哲人说过:“人并没有真正喜欢吃的东西,只是吃的次数多了,就‘喜欢’了。”

我对R语言的看法也差不多。随着对R了解的深入,我才发现,丰富的可视化工具、可重复性研究、匿名函数、延迟求值、元编程,还有6000+的CRAN包等等特性,都是R赫赫的闪光点。

R是一门统计学用的语言,这是这门语言给我的第一印象。看了 John Chambers 在 USER!2014 的视频,以及他对R的定义“a software interface into the best algorithms.” 的时候,我感受到了R的“最初的价值”。

magrittr让我们更欢乐地操纵各种命令,knitr让统计报告和编程文学化,dplyr更方便地处理数据,R还有shiny让你轻松地构建动态内容。我很难想象没有R,让我用其他语言来完成完成这些事情需要多少的工作量。

灵活而高效的接口

有人说R慢,只能说这些人应该不够“本质”,效率和灵活性总是需要平衡的。用C和FORTRAN来实现算法,用R(S)来解决问题,这是S诞生的初衷之一。英语渣渣的理解,不对请轻轻地喷。R的底层C接口对初学者有些复杂,Rcpp的出现很大程度上降低了写出高效率R包和代码的成本。

之前因为对文本挖掘比较感兴趣,所以打算用R来做一些分析,但是发现在R上,文本挖掘最基本的中文分词的模块还没有较好的实现。R是开源的,开源的意义不只是Free使用,还有贡献社区这一层,于是jiebaR诞生了。

jiebaR是“结巴”中文分词(Python)的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment)共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。目前托管在GitHub上。安装很简单,你可以下载Windows的二进制包或者:

library(devtools)
install_github("qinwf/jiebaR")

是的,然后你就可以开始分词了,再也没有rJava那头痛的Path设置。

继续阅读