COS访谈第十八期:陈天奇

【COS编辑部按】 受访者:陈天奇      采访者:何通   编辑:王小宁

简介:陈天奇,华盛顿大学计算机系博士生,研究方向为大规模机器学习。他曾获得KDD CUP 2012 Track 1第一名,并开发了SVDFeature,XGBoost,cxxnet等著名机器学习工具,是Distributed (Deep) Machine Learning Common的发起人之一。

3126784581353126432

何:你的本科在上海交大的ACM班就读,是怎么开始做机器学习研究的呢?

陈:我们当时的培养计划里面有一项,就是希望我们尽早地接触学术研究。于是我们在大二暑假就要开始进实验室了,在大三的暑假去微软亚研(MSRA)实习,于是我大二暑假去的是俞勇老师的实验室,当时戴文渊学长也在交大做迁移学习这一块的研究,所以我就跟着他了,也就是这个时候开始接触的机器学习。不过后面其实换了很多方向,因为戴文渊其实带了我半个学期就毕业了。后来我到微软实习做的是和广告相关的东西。之后实验室的一位老师建议我的毕设做深度学习。当时是2010年吧,深度学习还没有完全火起来的时候,整体的趋势是大家都在做无监督学习。当时实验室正好有一块比较老的显卡,我就开始写一些CUDA的程序。从毕设一直到研究生一年级我一直都在做无监督深度学习,也尝试过ImageNet,但是没有得到很好的结果。后来正好有KDD Cup这个机会,之后我们就逐渐往推荐系统的方向做了,因为2011和2012年的题目以推荐系统为主。

继续阅读COS访谈第十八期:陈天奇

从统计学角度来看深度学习(3):记忆和核方法

原文链接:http://blog.shakirm.com/2015/04/a-statistical-view-of-deep-learning-iii-memory-and-kernels/

作者:Shakir Mohamed  翻译:丁维悦     审校:朱雪宁  何通  施涛   编辑:王小宁

methodTriangle1-300x300
连接机器学习的回归方法

人们通过对以往的经验或者数据的回忆来推断未来的事物,这样的过程可以用一个经常出现在最近文献中的词语——记忆来概括。机器学习模型都是由这样的‘记忆’组成的,如何理解这些‘记忆’对于如何使用模型是极为重要的。根据机器学习模型的种类,可以分为两种主要的记忆机制,即参数型与非参数型(还包括了介于两者之间的模型)。深度网络作为参数记忆型模型的代表,它将统计特性从所观察到的数据中以模型参数或者权重的方式提炼出来。而非参数模型中的典范则是核机器(以及最近邻),它们的记忆机制是存储所有数据。我们可以自然地认为,深度网络与核机器是两种原理不同的由数据推导结论的方法,但是实际上,我们研究出这些方法的过程却表明它们之间有着更加深远的联系以及更基本的相似性。

深度网络、核机器以及高斯过程三者形成了解决相同问题的一套连贯的方法。它们的最终形式很不相同,但是它们本质上却是相互联系的。了解这一点对于更深入的研究十分有用,而这种联系正是这篇文章将要探讨的。

继续阅读从统计学角度来看深度学习(3):记忆和核方法

第八届中国R语言会议(北京)纪要

第八届中国R语言会议(北京会场)暨2015北大光华数据与价值论坛于2015年6月6日至7日在北京大学成功举办。第一日主会场位于邱德拔体育馆,第二日分会场位于光华管理学院一号楼。

一、会议概况

今年是中国R语言会议举办的第八年。会议由北京大学光华管理学院和统计之都联合主办,由北京大学商务智能中心、北大光华—奥迪管理研究中心、北京大学统计科学中心协办,并得到了百度、一汽—大众奥迪、乐递等战略合作伙伴的鼎力协助和懒投资、百分点、航旅纵横、量邦科技、微量网、一杯汤EasySoup、考拉征信等友情合作伙伴的大力支持。在两天的会议时间里,数据科学各行各业的同仁们欢聚一堂,共襄盛举,畅所欲言。

在北大光华、统计之都各位同仁的不懈努力下,本次会议比往届有了更大的突破。会议共设有10个分论坛,68场主题报告,覆盖大数据技术、互联网金融、量化投资、人网物联、生物信息等诸多当下热门话题。本届会议报名非常火爆,人数突破了4200人,报名单位超过1500个,不仅创下历届之最,也使本次会议成为亚洲地区规模最大的数据科学盛会之一。

继续阅读第八届中国R语言会议(北京)纪要

漫谈正态分布的生成

本文作者简介:王夜笙,就读于郑州大学信息工程学院,感兴趣的方向为逆向工程和机器学习,长期从事数据抓取工作(长期与反爬虫技术作斗争~),涉猎较广(技艺不精……),详情请见我的个人博客~
个人博客地址:http://bindog.github.io/blog/

感谢怡轩同学的悉心指导~

之前拜读了靳志辉(@rickjin)老师写的《正态分布的前世今生》,一直对正态分布怀着一颗敬畏之心,刚好最近偶然看到python标准库中如何生成服从正态分布随机数的源码,觉得非常有趣,于是又去查找其他一些生成正态分布的方法,与大家分享一下。

利用中心极限定理生成正态分布

设$X_1,X_2,\cdots ,X_n$为独立同分布的随机变量序列,均值为$\mu$,方差为$\sigma^2$,则

$$Z_n=\frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma \sqrt n}$$

具有渐近分布$N(0,1)$,也就是说当$n \rightarrow \infty$时,

$$P\left \{ \frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma \sqrt n} \leq x \right \} \rightarrow \frac{1}{\sqrt{2\pi} } \int_{-\infty }^{x} e^{ -\frac{t^2}{2} } \, dt$$

换句话说,$n$个相互独立同分布的随机变量之和的分布近似于正态分布,$n$越大,近似程度越好。当然也有例外,比如$n$个独立同分布的服从柯西分布随机变量的算术平均数仍是柯西分布,这里就不扩展讲了。

根据中心极限定理,生成正态分布就非常简单粗暴了,直接生成n个独立同分布的均匀分布即可,看代码

继续阅读漫谈正态分布的生成

中国R语言(广州)会议-暨华南地区数据科学会议纪要【含演讲资料】

编辑:王小宁

中国R语言(广州)会议暨华南地区数据科学会议于2015年5月23-24日在中山大学梁銶琚成功召开,由华南统计科学研究中心、中山大学数学与计算科学学院、统计之都共同筹办。

参会者齐聚一堂,23日上午就R语言在器学习在面向消费者的个人基因组检测中的应用、从机器学习到推荐系统、气象大数据等方面中的应用进行了深入的探讨,下午对htmlwidgets  让  recharts 再起航、Adaptive Annealed Importance Sampling for Bayesian Multimodal Posterior Exploration 、Alpha 量化对冲的实战策略、游戏行业大数据等行业的一体化应用等内容进行了深刻的交流。

继续阅读中国R语言(广州)会议-暨华南地区数据科学会议纪要【含演讲资料】