标签归档:数据科学家

COS访谈第二十期:千秋邈矣独留我,百战归来再读书:谢益辉

【COS编辑部按】 受访者:谢益辉   采访者:冯俊晨   编辑:王小宁

他站在技术与艺术的交界点。
                                                     ——沃尔特·华森《乔布斯传》

“误打误撞”的成功

2002年,谢益辉报考了中国人民大学统计学系。并不是因为他喜欢统计学——那时候他根本不知道统计学是什么——只是因为人大当年在湖北招生统计系有三个名额,比其他系都多,感觉录取概率会大一些。这个日后将跻身华人R开发者名人堂的湖北小伙,就这样从“种地之家”误打误撞地进入统计学的世界。yihui_xie

机缘巧合下,谢益辉在大三时承担了人大统计系网站以及论坛的维护工作。为了管好这个论坛,他学习了网页方面的知识,如JavaScript、HTML、CSS等。这些和数据分析风马牛不相及的技能却成为他未来成功的奠基石。他自己笑称“没想到当年玩玩的东西(R和JavaScript)最后竟成为了吃饭的工具”。然而谢益辉的“玩玩”却不是一般人能做到的。“我理想中的网站外观应该有这样的效果:当读者打开网页之后,十秒之内必须在口头或心里说‘真他爷爷的震撼’,甚至心生买椟还珠之意”[1]。益辉是这么想的,他也是这么做的。他在博客中这样描述2009年感恩节期间第三次重构统计之都的经历:“这活儿就跟拱土的猪一样,要拱就拱到底,早上爬起来就开始拱,一直拱到半夜睡觉”。[2]今天,统计之都除了在R语言界独领风骚之外,在整个统计学界也享有盛名。 继续阅读COS访谈第二十期:千秋邈矣独留我,百战归来再读书:谢益辉

一个数据科学家的这些年

【COS编辑部按】 作者:李舰 

简介:李舰先生现任堡力山(PMI)集团副总,曾任 Mango Solutions 中国区数据总监。专注于数据科学在行业里的应用。擅长R语言的工程开发与分析建模,是 Rweibo、Rwordseg、tmcn  等 R 包的作者。与肖凯合著了《数据科学中的R语言》,参与翻译了《R语言核心技术手册》、《机器学习与R语言》。李舰先生也曾有多篇文章在统计之都主站上发表。个人主页:http://jianl.org/
引言:这篇文章来自于我和肖凯的新作《数据科学中的R语言》的前言。原书受篇幅和语言风格所限,前言经过了一些删减,在这里将全文和增补的内容发布出来。为了尽量避免为新书打广告的嫌疑,先提前声明我们会把书中一些自认为比较有价值的经验和见解发布到统计之都上,只是希望对数据科学和R语言有个基本的认识或者了解一些作者的建议和感悟的读者大可不必去买这本书,只有对具体案例和技术感兴趣并且愿意实际操作才值得去购买。

僭称科学家我本来是不敢的,不过如今人们对数据的研究和应用的主战场在业界,“数据科学家”通常指的是一个职位的名称。现在很多公司(包括我自己的)招聘的职位都流行写“Data Scientist”,所以我自称数据科学家应该还好。从我本科进入中国人民大学学习统计学专业开始到现在的10多年时间里,我所有的求学经历和职业生涯都在和数据打交道,在数据应用的最前线感受到了业界对于数据价值理解的巨大变化。也亲身经历了从数据被冷遇到如今“大数据”成为显学这一激动人心的变革。这些年的很多经验都化成了这本书中的内容。在这里,我回顾自己在数据科学家道路上的一些经历,用自己的视角来总结这个数据时代的变化,也作为这本书的前言。

继续阅读一个数据科学家的这些年

COS每周精选:统计速递(2)

本期投稿:施涛 冷静 王小宁

编辑:王小宁

推荐系统

推荐系统现已广泛应用于很多领域,其中最典型并具有良好的发展和应用前景的领域就是电子商务领域。我们看看今年的ACM推荐系统大会有那些新的内容呢?

概率简史

在有很多人为弄不明白什么是贝叶斯公式而焦虑的时候,一项新的发现却让人们大吃一惊:人类天生懂概率,这是真的么?英文在这里

概率模型

光棍节马上要到了,你准备好脱光了么?很多人一直在怀疑是什么导致自己依旧单身,我们今天揭晓谜底:只是概率惹的祸。

继续阅读COS每周精选:统计速递(2)

从数据到价值——创业团队应该关注的四个阶段

COS编辑部按:本文作者为北京大学王汉生教授,文章面向光华MBA学生系统梳理了从数据到价值的理念。作者简介:王汉生教授现任狗熊会会长、北京大学商务智能研究中心主任、北京大学光华管理学院商务统计与经济计量系系主任。现为ISI, ASA, IMS, RSS, ICSA会员,ASA会士(2014年6月23日更新)。

问题背景

whs这是一个最好的时代,移动互联网技术为从业者提供了无比丰富的数据。从人们的言行举止、社交关系、到地里位置无处不在。这些详细宝贵的数据,蕴含了巨大的价值!但是,这也是一个最坏的时代,面对汹涌而来的海量数据,绝大多数从业者却无可适从,无法从中发掘出有用的信息,难以实现从数据到价值的转换,这是何等的遗憾!如果这是一个从业者的遗憾,无需担忧,因为这是他的个人问题。谁让他不好好上一门王老师的《商务统计学》呢?嘿嘿:-) 如果这是两个从业者的遗憾,也可以高枕无忧,两个人没上《商务统计学》呗!但是,如果这是绝大多数人的遗憾,那么这就是整个行业和教育的遗憾,我们就需要检讨:这是怎么回事,问题出在哪个环节上?

如果尝试从媒体中寻找答案,那么五花八门。但是,背后的故事基本都是一样的。那就是需要一个爱因斯坦一样的天才,掌握着可乐配方一样神秘的算法,然后从一群垃圾都不如的数据中,产生了惊为天人的发现,造就了巨大的商业成功。人们管这样一群神奇的天才叫:数据科学家!“数据科学家”这个词汇是一个伟大的创举,它笼统地覆盖了计算机、管理科学、统计学、营销、经济学等众多学科。因此,每个学科都喜欢这个名词,都觉得和自己相关。但是,谁都给不出一个精确的定义。但是,这不重要,这不妨碍人们以各自的标准去寻找自己心中的那个“数据科学家”。因此,不少创业团队在创始初期,不惜血本,从拥有大量“数据科学家”的知名企业招揽人才。这些企业有哪些呢?谷歌系、阿里系、腾讯系、百度系等等。不管这批“数据科学家”在自己的专业方面是如何优秀(而事实上也确实极其优秀),他们是否会对这个新生的创业团队带来相应的价值?无论他们自己是创业者,还是创业团队的核心员工,还是普通员工,他们成功的概率几何?要让我赌一把,我一定是赌他:不成功(不一定失败,不成功的定义是其实际价值产出远远低于预期)。这里并不是看低这些优秀个体的个人能力。来自一个优秀企业的优秀员工,其自身在专业上的出色是毋庸置疑,值得尊敬,甚至崇拜的。但是,一个基本事实:这些优秀的员工在高端大气上档次的企业,如龙如虎,价值发挥淋漓尽致。但是,一旦到一个草根初期的创业团队,他们实现完全成功的概率极低。为什么?因为从企业到个人,都没有仔细思考过从数据到价值的过程,进而无法理解这些优秀的个体在各自的组织中,在当前这个创业阶段,可以起到什么样的作用。进而,对人对事都产生了错误的判断。 继续阅读从数据到价值——创业团队应该关注的四个阶段