COS沙龙第23期(北京)

 IMG_6442

2014年11月23日,第23期COS沙龙(北京站)在北京大学光华管理学院顺利举行。各位统计爱好者、投资从业者纷纷前来,积极探讨,共同完成了一场主题为“量化投资中的资金管理问题”的精彩分享沙龙。本次沙龙由人大统院本科生吕翔主持,嘉宾是量客投资副总经理刘岩草先生。

继续阅读

COS每周精选: PM2.5的数据可视化

本期投稿:王威廉 冷静  蔡占锐 王小宁

编辑:王小宁

数据可视化

身在北京的小伙伴么是否还怀念“APEC蓝”的那些日子,你是否还在为度过38年来最长寒假而不知去哪里玩,小编觉得去哪里玩先看看哪里的PM2.5,你说对吧,最近发现了一个实时展现世界各地PM2.5,你是不是也利用它来可以告诉你不同地方的亲戚朋友出门记得戴口罩呢?

R计算

你是否还在为高数课本上的一道道导数计算题而不知所措,其实R也可以帮你做这些作业哦。

继续阅读

COS每周精选:机器学习哪家强?

本期投稿: 冷静  蔡占锐  王小宁

编辑:王小宁

机器学习

 很多人在学习机器学习,但是这里面也有误区,你知道么?机器学习的资料也不断的出现,到底有哪些机器学习中深度学习的资料供我们学习,小编搜罗了一下,供大家参考。许多同学对于机器学习及深度学习的困惑在于,数学方面已经大致理解了,但是动起手来却不知道如何下手写代码。斯坦福深度学习博士Andrej Karpathy写了一篇实战版本的深度学习及机器学习教程,手把手教你用Javascript写神经网络和SVM。

概率计算

继上次Karl Broman的袜子事件之后,又有人给出了更多的概率计算,看这趋势,估计某些同学下一次的概率论考试也许就有算袜子概率的题目了。

统计分析

一个自动统计分析机器人,扔进去数据就出来报告,目前似乎只支持全是数值变量的数据,而且只有线性回归分析。小编在想这东西可以用Shiny在R里面写一个玩玩啊,不知道是否有客官感兴趣。

继续阅读

jiebaR中文分词——R的灵活,C的效率

本文作者:覃文锋,厦门大学公共卫生学院本科生,研究兴趣为生物统计和数据挖掘。

主页:http://qinwenfeng.com/cn/jiebaR-dev/

R是什么?

记得刚接触R的时候,有一种莫名的抵触,A、B、C、D、E那么多种语言了,为什么又多冒出来一个R?为了时间序列的课程,我又要多记忆一大堆乱七八糟的语法。当发现居然有dd<-23333 23333->ee 这样的语法时,更瞬间奠定了R语言在我心中的逗比地位。

因为老师没有专门教授R的相关细节,毕竟课程的主题不是那个,加之R的语法与众不同,这导致我的R语言相关作业的绝大部分时间一般都在百度、谷歌各种R语言的表达、实现方法中度过。

记得有位哲人说过:“人并没有真正喜欢吃的东西,只是吃的次数多了,就‘喜欢’了。”

我对R语言的看法也差不多。随着对R了解的深入,我才发现,丰富的可视化工具、可重复性研究、匿名函数、延迟求值、元编程,还有6000+的CRAN包等等特性,都是R赫赫的闪光点。

R是一门统计学用的语言,这是这门语言给我的第一印象。看了 John Chambers 在 USER!2014 的视频,以及他对R的定义“a software interface into the best algorithms.” 的时候,我感受到了R的“最初的价值”。

magrittr让我们更欢乐地操纵各种命令,knitr让统计报告和编程文学化,dplyr更方便地处理数据,R还有shiny让你轻松地构建动态内容。我很难想象没有R,让我用其他语言来完成完成这些事情需要多少的工作量。

灵活而高效的接口

有人说R慢,只能说这些人应该不够“本质”,效率和灵活性总是需要平衡的。用C和FORTRAN来实现算法,用R(S)来解决问题,这是S诞生的初衷之一。英语渣渣的理解,不对请轻轻地喷。R的底层C接口对初学者有些复杂,Rcpp的出现很大程度上降低了写出高效率R包和代码的成本。

之前因为对文本挖掘比较感兴趣,所以打算用R来做一些分析,但是发现在R上,文本挖掘最基本的中文分词的模块还没有较好的实现。R是开源的,开源的意义不只是Free使用,还有贡献社区这一层,于是jiebaR诞生了。

jiebaR是“结巴”中文分词(Python)的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment)共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。目前托管在GitHub上。安装很简单,你可以下载Windows的二进制包或者:

library(devtools)
install_github("qinwf/jiebaR")

是的,然后你就可以开始分词了,再也没有rJava那头痛的Path设置。

继续阅读

第七届中国R语言会议(上海会场)通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办到了第七届会议,促进了R语言乃至数据科学在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,华东师范大学金融与统计学院和统计之都将于2014年12月6日和7日在华东师范大学中山北路校区举办第七届中国R语言会议(上海会场)。欢迎各界朋友前来交流。

除了统计之都主站,会务信息还会通过统计之都微信(扫描本页面右侧微信公众平台二维码即可关注)、微博(@统计之都)来发布,欢迎大家关注获取最新消息。

会议的相关情况如下:

一、会议时间

2014年12月6日~7日。会议将于12月6日上午9:00正式开幕,请注册报名了的参会者提前半小时进场,签到和领取资料(包括胸牌、会议手册、纸笔等)。

二、会议地点

华东师范大学,中山北路校区,科学会堂二楼报告厅。
地址:中山北路3663号(地铁3,4号线金沙江路站)。

三、会议主题

随着大数据时代的来临,数据的价值越来越被人们所重视,作为分析和处理数据的利器,R也从学术界的宠儿变成了业界的明星。在这个风起云涌的数据时代,我们该如何运用R?在本次会议上我们欢迎来自各界的朋友一起讨论。如果您有关于R语言或者数据科学应用实例的经验想和大家分享,请在报名时填写演讲的主题或者直接发送邮件到会议邮箱:chinar-2014-sh@cos.name。本次会议欢迎任何和R语言或者数据分析相关的报告。

目前已确定的主题包括:

  • 刘思喆(京东商城):R语言在推荐系统中的应用
  • 张翔(在路上旅行APP):Growth Hacker的R工具箱
  • 陈丽云(eBay):网站实验设计框架与实战
  • 李舰(Mango Solutions):地理信息与基于位置的服务
  • 周扬(J.D. Power):利用R与动态可交互图形讲述汽车数据里的故事
  • 邓一硕(统计之都):基于R语言的投资监控平台之构建
  • 陈堰平(SupStat):在应用程序中整合R、增加分析能力的利器:DeployR
  • 杜亚磊(SupStat):绘制地图的另一个选择:baidumap
  • 石宏飞(宏源证券):客户账户分析方法:用R实现建模
  • 呼思乐(中科院上海生命科学研究院):基于R的三维人脸绘图系统以及利用R实现三维人脸预测人的性格
  • 张兵(浙江省疾病预防控制中心):空气污染与R
  • 肖嘉敏(艾瑞咨询):电商数据化运营中的网站竞争分析
  • 李殷皓(PayPal):用R+shiny+rCharts快速打造数据产品

继续阅读