标签归档:数据科学

COS每周精选:数据挖掘中的十大算法

本期投稿:谢益辉 施涛 朱雪宁 王小

编辑:王小宁

国际权威的学术组织 The IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, 和 CART.,相关的论文在这里。最近有人把这些算法用R实现了

继续阅读COS每周精选:数据挖掘中的十大算法

第七届中国R语言会议(广州会场)通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了六届R语言会议,促进了R语言乃至数据科学在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,中山大学数学与计算科学学院、华南统计科学研究中心和统计之都将于2014年11月15日在中山大学南校区举办第七届中国R语言会议(广州会场)。这将是R语言会议首次在华南地区举办。

除了统计之都主站,会务信息还会通过统计之都微信(扫描本页面右侧微信公众平台二维码即可关注)、微博(@统计之都)来发布,欢迎大家关注获取最新消息。

会议的相关情况如下:

一、会议时间

2014年11月15日。

二、会议地点

广州市海珠区新港西路135号中山大学南校区网络中心报告厅。中山大学
继续阅读第七届中国R语言会议(广州会场)通知

郁彬:让我们拥抱数据科学(Let us own data science)

郁彬教授8月22日在北京大学做了名为让我们拥抱数据科学(Let us own data science)的讲座。在演讲中郁彬从一个统计学家的角度出发,讲述了数据科学的兴起历史和目前状况,并且对统计学科、从事统计相关工作的人士如何跟上时代步伐拥抱数据科学给出了非常多的建议。经过郁彬的允许和支持,本文分享了她此次演讲的幻灯片和视频!

演讲人介绍:郁彬是加州大学伯克利分校统计系和电子工程与计算机科学系的讲席教授,是美国国家科学院、美国艺术与科学院双院士。她曾在威斯康星麦迪逊和耶鲁大学都任过教,并且曾经是贝尔实验室的技术研究成员。她在2009年到2012年间担任加州大学伯克利分校统计系系主任,还是北大微软统计和信息技术实验室的创办者和主任之一。

讲座摘要:This talk is a repeat of my IMS Presidential Address in Sydney at the joint conference of Statistical Society of Australia and IMS in July, 2014. It is about the history of the statistics discipline, the intimate connections between statistics and computing, and the need for Statistics to embrace data science.

幻灯片:http://www.stat.berkeley.edu/~binyu/ps/papers2014/IMS-pres-address14-yu.pdf

中文演讲视频:

在悉尼的英文演讲视频(略有不同):http://www.youtube.com/watch?v=92OjsYQJC1U

第七届中国R语言会议(北京会场)通知

R是一门用于数据分析和图形展示的语言、平台和环境,其官方机构每年都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在国内,自2008年以来,中国已经在北京和上海成功举办了六届R语言会议,促进了R语言在中国的推广和发展。为了进一步加强各领域R语言使用者之间的交流和互动,我们准备在2014年5月24-25日在北京举行第七届中国R语言会议(北京会场)。除了统计之都主站,会务信息还会通会议主页(http://china-r.org/),微信(扫描本页面右侧微信公众平台二维码即可关注)、微博(@统计之都)来发布,欢迎大家关注获取最新消息。

会议的相关情况如下:

一、会议时间

2014年5月24-25日。

二、会议地点

24日:中国人民大学如论大讲堂。
25日:中国人民大学明德商学楼102、202、302分会场。 继续阅读第七届中国R语言会议(北京会场)通知

COS访谈第十三期:逄伟(eBay)

【COS编辑部按】受访人:逄伟 (读音:páng wěi,英文名:Wilson)  ,

简介:逄伟,Director of Engineering, behavioral insights and science, eBay Inc.采访人:Liyun, Marketing Analyst, eBay Inc.

写在前面的话:前阵子统计之都发布了一系列数据分析领域专家的采访,从学界到业界,从新人到鼻祖。而后统计之都的主编向我约稿,我第一个想起来采访的人就是Wilson。虽然在eBay不同的部门工作,但同属数据科学的大圈子有交集也有不同的见解。我一直很好奇CS或者EE出身、从事系统开发背景的人会在工作中感受到什么样的数据分析,而Wilson正是回答这个问题最好的人选

wilson

Wilson是eBay美国Engineering, behavioral insights and science总监。他于2006年加入eBay,先后参与过eBay支付系统、搜索产品、行为数据产品的开发。在加入eBay之前他在IBM从事了5年多的架构师和资深顾问工作。从浙大读书时期的创业经历,到咨询公司、再到电子商务公司,我们希望他对于学术知识、职业发展、数据科学的理解和心路历程可以启发后来者,以期在这个领域做出更大的成就。

Liyun: 我注意到你大学期间的专业是EE,那当时你应该主要专注在工程方面吧?除此之外,那时候你们学很多统计吗?

Wilson: 当时和大多数本科生差不多吧,接触过一两门课吧。

Liyun: 当时有这种数据科学(Data science)的概念吗?

Wilson: 那时候是94年,我们刚进大学的时候做的还是DOS下的编程,拿三四张那种很大的磁盘装个windows 3.x都是很兴奋的一件事情。那时候哪里有数据科学,大家都没有多少数据。那时候我们做一个股票分析软件,就是在小小的内存上一个点一个点画的。我的第一台电脑硬盘的大小也就是640M左右,内存也就是16M还是32M的样子。几十兆或者几兆就是“大数据”了——一张磁盘装不下的就是很大的数据。

Liyun: 那现在回想一下,当时学的什么东西最好玩?假设你现在回到学校,会再学点什么东西呢?

继续阅读COS访谈第十三期:逄伟(eBay)