标签归档:数据科学

Breiman访谈实录

COS编辑部按:本文是一篇Richard Olshen对Leo Breiman的采访稿(原文发表在Statistical Science)。翻译工作已经得到作者授权。翻译: 张晔、成慧敏、李宇轩。审校:高涛、侯澄钧、丁鹏、魏太云。此外,郑重感谢施涛、丁鹏、郁彬老师为文章的翻译指导和版权沟通提供的帮助。

译者简介:张晔,毕业于华南统计科学研究中心,现严肃科技平台开发工程师,主要负责docker容器调度系统开发。成慧敏,就读于中央财经大学统计与数学学院,硕士研究生二年级,研究兴趣为复杂网络分析与深度学习。李宇轩,就读于中国人民大学统计学院,大二本科生,目测统计有关都可以是学习方向。

1928年1月28日,Leo Breiman生于纽约。5年后,他们家搬到了旧金山,然后Leo开始了他的学业。在他读初中的时候,他们家又搬去了洛杉矶。1945年,Leo从Roosevelt高中毕业后考进了加州理工学院,在那里他花了4年时间主修物理。1950年,Leo拿到了哥伦比亚大学的数学硕士学位,1954年,他又拿到了加州大学伯克利分校的数学博士学位。

Leo对科学和数学有着广泛的兴趣,包括信息论和博弈论。他曾参与汽车交通、空气质量和有毒物质识别等方向的研究。 他写过一篇著名的关于概率论的毕业论文,他是分类回归树(CART, Classification and Regression Trees)及其配套软件$CART^R$的四位作者之一,另外他还写了两本专著。Leo和Jerome Friedman一起开创了ACE(alternating conditional expectations)算法,该算法描述了因变量和自变量之间的非线性回归关系。 他开创性地提出将”bagging”和”arcing”这两种需要大量计算的方法用于分类,目前很多学者对此十分感兴趣。

Leo的职业履历包括,加州大学洛杉矶分校(UCLA)数学系教职,13年的独立咨询顾问,加州大学伯克利分校(UC Berkeley)统计系教授,同时也是该校统计计算实验室的创始人兼主任。 另外,他还是斯坦福大学和耶鲁大学的客座教授。 由于他的诸多贡献,Leo被授予数理统计研究所(Institute of Mathematical Statistics)和美国统计协会(American Statistical Association)的荣誉基金。 同时,他还是美国艺术与科学学院(American Academy of Arts and Sciences)的选举成员,并被加州大学授予Berkeley Citation荣誉奖项。

Leo Breiman是一个兴趣广泛的人,他不仅是专业的统计学家和概率学家,还在其他方面也取得了很多成就。他在Catskills当过服务员,在Merchant Marine当过洗碗工,同时他是一名探寻过热带雨林核心地带的背包客,是一群来自墨西哥农村孩子的慈爱父亲,是Santa Monica学校董事会的主席,是他美丽小屋的建筑师,还是一个技艺高超的雕刻家。Leo和他的妻子Mary Lou,居住在加州伯克利,他们育有两个女儿,Rebecca和Jessica。

采访者简介:Richard Olshen,斯坦福大学生物统计教授,生物统计方向(Division of Biostatistic)首席科学家,卫生研究和政策系(Department of Health Research and Policy)的副主任,斯坦福大学电气工程系和统计系兼职教授。该访谈于1999年2月19日在Leo和他的妻子Mary Lou的家中进行。 继续阅读Breiman访谈实录

互联网金融中的数据科学

作者:张云松

毕业于中科院,多年咨询公司和互联网公司从事数据算法、决策分析、风险管理和产品设计的工作,目前是融360风控总监,负责纯线上小额微贷信用贷款产品。

屏幕快照 2016-07-30 上午9.40.22

最近几年,这波在资本撬动的互联网金融的浪潮极大地提升了数据科学的行业应用价值,数据分析师不再是苦逼的跑数的,摇身一变成了风控模型专家、数据科学家。尤其是大数据风控、大数据征信领域一片火热的场景,数据挖掘、机器学习相关专业同学的数量也翻番上涨,越来越多的计算机和统计领域的同学加入互联网金融行业。

屏幕快照 2016-07-30 下午5.54.50

面试中发现很多同学的梦想工作都是我要做机器学习相关工作、我要做算法、我要做模型……但其实以一个互联网金融从业者角度看,我们大量的时间还是在做数据理解、数据处理、重复验证特征、不停的在做实验,我对模型师的定义基本就是半个蓝领,只不过很多学术和一些五花八门的算法和方法可以真正有机会应用到商业领域并且产生价值。

本文分享一些互联网金融从业者日常工作中实际用到的与数据科学相关的内容,由于日常工作中涉及到的数据和策略非常敏感,本文中不会透露具体产品策略,只会对一些思考和方法进行介绍;同时,由于如今互联网金融产品的形态非常多,下文主要介绍目前很热的在线授信贷款产品中数据科学的应用。 继续阅读互联网金融中的数据科学

第九届中国R语言会议(北京)

ruc22016年,是统计之都倡导的中国R语言会议第九年,也是统计之都成立十周年。本届R语言会议将与第七届中国人民大学国际统计论坛、2016百分点数据与价值国际论坛联合举办,共同组成迄今为止中国最大的统计盛会——大统计与数据科学联合会议。

中国R语言会议是由统计之都发起,并同国内高校共同举办的R语言与数据科学会议。2008年,中国R语言会议在中国人民大学举办第1届,2015年已发展至全国七个城市举办,报名人数近万人。内容覆盖数据科学及R语言在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域。

R语言会议不断发展,统计之都也已走过了十年风雨。十年间,统计之都服务着广大统计学爱好者,推动着R语言在中国的不断发展,见证着数据科学时代的逐渐崛起。在这样一个值得纪念的时刻,让我们相聚人大,相聚统计之都十周年庆典,也相聚这场数据与统计的盛宴!

会议的相关情况如下:

一、会议时间

2016年5月27日~29日 继续阅读第九届中国R语言会议(北京)