标签归档:机器学习

Breiman访谈实录

COS编辑部按:本文是一篇Richard Olshen对Leo Breiman的采访稿(原文发表在Statistical Science)。翻译工作已经得到作者授权。翻译: 张晔、成慧敏、李宇轩。审校:高涛、侯澄钧、丁鹏、魏太云。此外,郑重感谢施涛、丁鹏、郁彬老师为文章的翻译指导和版权沟通提供的帮助。

译者简介:张晔,毕业于华南统计科学研究中心,现严肃科技平台开发工程师,主要负责docker容器调度系统开发。成慧敏,就读于中央财经大学统计与数学学院,硕士研究生二年级,研究兴趣为复杂网络分析与深度学习。李宇轩,就读于中国人民大学统计学院,大二本科生,目测统计有关都可以是学习方向。

1928年1月28日,Leo Breiman生于纽约。5年后,他们家搬到了旧金山,然后Leo开始了他的学业。在他读初中的时候,他们家又搬去了洛杉矶。1945年,Leo从Roosevelt高中毕业后考进了加州理工学院,在那里他花了4年时间主修物理。1950年,Leo拿到了哥伦比亚大学的数学硕士学位,1954年,他又拿到了加州大学伯克利分校的数学博士学位。

Leo对科学和数学有着广泛的兴趣,包括信息论和博弈论。他曾参与汽车交通、空气质量和有毒物质识别等方向的研究。 他写过一篇著名的关于概率论的毕业论文,他是分类回归树(CART, Classification and Regression Trees)及其配套软件$CART^R$的四位作者之一,另外他还写了两本专著。Leo和Jerome Friedman一起开创了ACE(alternating conditional expectations)算法,该算法描述了因变量和自变量之间的非线性回归关系。 他开创性地提出将”bagging”和”arcing”这两种需要大量计算的方法用于分类,目前很多学者对此十分感兴趣。

Leo的职业履历包括,加州大学洛杉矶分校(UCLA)数学系教职,13年的独立咨询顾问,加州大学伯克利分校(UC Berkeley)统计系教授,同时也是该校统计计算实验室的创始人兼主任。 另外,他还是斯坦福大学和耶鲁大学的客座教授。 由于他的诸多贡献,Leo被授予数理统计研究所(Institute of Mathematical Statistics)和美国统计协会(American Statistical Association)的荣誉基金。 同时,他还是美国艺术与科学学院(American Academy of Arts and Sciences)的选举成员,并被加州大学授予Berkeley Citation荣誉奖项。

Leo Breiman是一个兴趣广泛的人,他不仅是专业的统计学家和概率学家,还在其他方面也取得了很多成就。他在Catskills当过服务员,在Merchant Marine当过洗碗工,同时他是一名探寻过热带雨林核心地带的背包客,是一群来自墨西哥农村孩子的慈爱父亲,是Santa Monica学校董事会的主席,是他美丽小屋的建筑师,还是一个技艺高超的雕刻家。Leo和他的妻子Mary Lou,居住在加州伯克利,他们育有两个女儿,Rebecca和Jessica。

采访者简介:Richard Olshen,斯坦福大学生物统计教授,生物统计方向(Division of Biostatistic)首席科学家,卫生研究和政策系(Department of Health Research and Policy)的副主任,斯坦福大学电气工程系和统计系兼职教授。该访谈于1999年2月19日在Leo和他的妻子Mary Lou的家中进行。 继续阅读Breiman访谈实录

张志华教授:机器学习——统计与计算之恋

编辑部按:本文是从张志华老师在第九届中国R语言会议和上海交通大学的两次讲座中整理出来的,点击此处观看幻灯片张志华老师是上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授,计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前,是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。张老师主要从事人工智能、机器学习与应用统计学领域的教学与研究,迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文,是美国“数学评论”的特邀评论员,国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委,其公开课《机器学习导论》和《统计机器学习》受到广泛关注。

张志华

张志华老师和他的学生们

大家好,今天我演讲的主题是 “机器学习:统计与计算之恋。我用了一个很浪漫的名字,但是我的心情是诚惶诚恐的。一则我担心自己没有能力驾驭这么大的主题,二则我其实是一个不解风情之人,我的观点有些可能不符合国内学术界的主流声音。

最近人工智能或者机器学习的强势崛起,特别是刚刚过去的AlphaGo和韩国棋手李世石九段的人机大战,再次让我们领略到了人工智能或机器学习技术的巨大潜力,同时也深深地触动了我。面对这一前所未有的技术大变革,作为10多年以来一直从事统计机器学习一线教学与研究的学者,希望借此机会和大家分享我个人的一些思考和反思。

在这场人工智能发展的盛事里,我突然发现,对我们中国的学者来说,好像是一群看热闹的旁观者。不管你承认还是不承认,事实就是和我一代的或者更早的学者也只能作为旁观者了。我们能做的事情是帮助你们—中国年轻的一代,让你们在人工智能发展的大潮中有竞争力,做出标杆性的成就,创造人类文明价值,也让我有个加油欢呼的主队。

继续阅读张志华教授:机器学习——统计与计算之恋

COS每周精选:机器学习

本期投稿:冯凌秉  王威廉   王小宁   视觉机器人            编辑:王小宁

机器学习

非平衡样本的分类问题是机器学习的经典问题之一,困扰着不少童鞋。这篇博文提供在R中解决该问题的实用指南

Github上比较受欢迎的深度学习项目(Top Deep Learning Projects),按照获得星星个数的排名,包括一些教程项目等。 学习完这个,基本上就可以闯荡天涯啦!

机器学习顶级会议ICML2016论文赏析:deep reinforcement learning benchmarking 论文代码下载

继续阅读COS每周精选:机器学习

COS访谈第十九期:张志华教授

【COS编辑部按】 受访者:张志华   采访者:常象宇   文字整理:王莉晶 朱雪宁

张志华,博士,上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授,计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前,是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。主要从事人工智能、机器学习与应用统计学领域的教学与研究。迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文。是美国“数学评论”的特邀评论员,国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委。其公开课《机器学习导论》和《统计机器学习》受到广泛关注。

张志华教授和他的学生们

张志华教授和他的学生们

2015年9月19日晚,在美丽的古都西安,张志华接受了常象宇博士(西安交通大学管理学院助理教授)的采访,王莉晶、朱雪宁对采访稿进行了一些文字上的整理和修改,全文最终由采访人常象宇和被采访人张志华审核定稿。

下面是访谈的全部内容。

常象宇:请您简单介绍一下您博士期间的研究和促使您出国求学的原因。

张志华:当时在国内读博士的时候,我的研究主要是集中在利用模糊数学,神经网络与遗传算法、并利用它们解决图像处理、计算机视觉等中的问题。当时做这些方法还是发表一些论文,毕业条件也很容易达到的,但是自己隐隐约约总觉得这个领域不太对自己胃口。而且博士读了4年,之前博士论文基本完成。最后一年的空档期,我读到了Biometrika和JRSSB上面Peter Green和S. Richardson的关于RJMCMC(Reversible Jump Markov Chain Monte Carlo)的文章。RJMCMC的思想是把参数估计和模型选择放在一个统一的框架下进行。特别是,他们在JRSSB上的文章给出了求解单变量高斯混合模型的RJMCMC方法。当时用高斯混合模型去做图像分割是比较重要的方法,但通常是用BIC等准则进行模型选择,参数估计和模型选择是两个分离的过程。所以当时计算机视觉界关注到RJMCMC。但是我们遇到的问题不是单变量问题,而是高维问题。Green他们文章特别提到,他们方法推广到高维是Open Problem,并说这是个比较难的问题。当时我的第一感觉,我可以解决这个问题。我们利用SVD分解设计了相应的算法,效果也不错。但是里面的证明我还是没法解决,主要是缺少统计背景。但发现这些东西,我突然觉得特别喜欢,所以当时就决定改行。而在国内无法学到这些东西,也找不到相关书籍,当时上国际网是要付费的,不像现在获取资料如此方便。那段时间,在Mike Jordan教授个人主页上发现了他的统计学习的讲义“概率图模型导论”。那个时候下载1M需要大约5元钱。所以颇花了一番周折才弄到Mike 的讲义。读完之后收益非常大, 也喜欢上了统计学习这个方向。意识到相关背景自己缺得太多,而国内很难找到相关书籍啊。

常象宇:您后来又是如何师从了国际著名的统计机器学习专家Michael Jordan教授的呢? 继续阅读COS访谈第十九期:张志华教授