标签归档:机器学习

模型选择的一些基本思想和方法

作者:高涛  编辑:王小宁

0. 引言

有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观的理解是,统计学习侧重于从概率分布来描述数据生成机制,除了预测之外,还关心结果(参数假设、误差分布假设)的检验,而机器学习侧重于从函数拟合角度来描述数据生成机制,基本目的就是为了拟合和预测,缺乏严谨的参数、误差的检验机制,比如下式:
\[
Y = f(X) + \epsilon
\] 继续阅读模型选择的一些基本思想和方法

COS访谈第十八期:陈天奇

【COS编辑部按】 受访者:陈天奇      采访者:何通   编辑:王小宁

简介:陈天奇,华盛顿大学计算机系博士生,研究方向为大规模机器学习。他曾获得KDD CUP 2012 Track 1第一名,并开发了SVDFeature,XGBoost,cxxnet等著名机器学习工具,是Distributed (Deep) Machine Learning Common的发起人之一。

3126784581353126432

何:你的本科在上海交大的ACM班就读,是怎么开始做机器学习研究的呢?

陈:我们当时的培养计划里面有一项,就是希望我们尽早地接触学术研究。于是我们在大二暑假就要开始进实验室了,在大三的暑假去微软亚研(MSRA)实习,于是我大二暑假去的是俞勇老师的实验室,当时戴文渊学长也在交大做迁移学习这一块的研究,所以我就跟着他了,也就是这个时候开始接触的机器学习。不过后面其实换了很多方向,因为戴文渊其实带了我半个学期就毕业了。后来我到微软实习做的是和广告相关的东西。之后实验室的一位老师建议我的毕设做深度学习。当时是2010年吧,深度学习还没有完全火起来的时候,整体的趋势是大家都在做无监督学习。当时实验室正好有一块比较老的显卡,我就开始写一些CUDA的程序。从毕设一直到研究生一年级我一直都在做无监督深度学习,也尝试过ImageNet,但是没有得到很好的结果。后来正好有KDD Cup这个机会,之后我们就逐渐往推荐系统的方向做了,因为2011和2012年的题目以推荐系统为主。

继续阅读COS访谈第十八期:陈天奇

从统计学角度来看深度学习(3):记忆和核方法

原文链接:http://blog.shakirm.com/2015/04/a-statistical-view-of-deep-learning-iii-memory-and-kernels/

作者:Shakir Mohamed  翻译:丁维悦     审校:朱雪宁  何通  施涛   编辑:王小宁

methodTriangle1-300x300
连接机器学习的回归方法

人们通过对以往的经验或者数据的回忆来推断未来的事物,这样的过程可以用一个经常出现在最近文献中的词语——记忆来概括。机器学习模型都是由这样的‘记忆’组成的,如何理解这些‘记忆’对于如何使用模型是极为重要的。根据机器学习模型的种类,可以分为两种主要的记忆机制,即参数型与非参数型(还包括了介于两者之间的模型)。深度网络作为参数记忆型模型的代表,它将统计特性从所观察到的数据中以模型参数或者权重的方式提炼出来。而非参数模型中的典范则是核机器(以及最近邻),它们的记忆机制是存储所有数据。我们可以自然地认为,深度网络与核机器是两种原理不同的由数据推导结论的方法,但是实际上,我们研究出这些方法的过程却表明它们之间有着更加深远的联系以及更基本的相似性。

深度网络、核机器以及高斯过程三者形成了解决相同问题的一套连贯的方法。它们的最终形式很不相同,但是它们本质上却是相互联系的。了解这一点对于更深入的研究十分有用,而这种联系正是这篇文章将要探讨的。

继续阅读从统计学角度来看深度学习(3):记忆和核方法

“支持向量机系列”的番外篇二: Kernel II

原文链接请点击这里

在之前我们介绍了如何用 Kernel 方法来将线性 SVM 进行推广以使其能够处理非线性的情况,那里用到的方法就是通过一个非线性映射 $\phi(\cdot)$ 将原始数据进行映射,使得原来的非线性问题在映射之后的空间中变成线性的问题。然后我们利用核函数来简化计算,使得这样的方法在实际中变得可行。不过,从线性到非线性的推广我们并没有把 SVM 的式子从头推导一遍,而只是直接把最终得到的分类函数

\[
f(x) = \sum_{i=1}^n\alpha_i y_i \langle x_i, x\rangle + b
\]

infinity中的内积换成了映射后的空间中的内积,并进一步带入了核函数进行计算。如果映射过后的空间是有限维的,那么这样的做法是可行的,因为之前的推导过程会一模一样,只是特征空间的维度变化了而已,相当于做了一些预处理。但是如果映射后的空间是无限维的,还能不能这么做呢?答案当然是能,因为我们已经在这么做了嘛! 🙂 但是理由却并不是理所当然的,从有限到无限的推广许多地方都可以“直观地”类比,但是这样的直观性仍然需要严格的数学背景来支持,否则就会在一些微妙的地方出现一些奇怪的“悖论”(例如比较经典的芝诺的那些悖论)。当然这是一个很大的坑,没法填,所以这次我们只是来浮光掠影地看一看核方法背后的故事。

继续阅读“支持向量机系列”的番外篇二: Kernel II

“支持向量机系列”的番外篇一: Duality

原文链接请点击这里

之前关于 support vector 的推导中,我们提到了 dual ,这里再来补充一点相关的知识。这套理论不仅适用于 SVM 的优化问题,而是对于所有带约束的优化问题都适用的,是优化理论中的一个重要部分。简单来说,对于任意一个带约束的优化都可以写成这样的形式:

\[
\begin{aligned}
\min&f_0(x) \\
s.t. &f_i(x)\leq 0, \quad i=1,\ldots,m\\
&h_i(x)=0, \quad i=1,\ldots,p
\end{aligned}
\]

形式统一能够简化推导过程中不必要的复杂性。其他的形式都可以归约到这样的标准形式,例如一个 $\max f(x)$ 可以转化为 $\min -f(x)$ 等。假如 $f_0,f_1,\ldots,f_m$ 全都是凸函数,并且 $h_1,\ldots,h_p$ 全都是仿射函数(就是形如 $Ax+b$ 的形式),那么这个问题就叫做凸优化(Convex Optimization)问题。凸优化问题有许多优良的性质,例如它的极值是唯一的。不过,这里我们并没有假定需要处理的优化问题是一个凸优化问题。

继续阅读“支持向量机系列”的番外篇一: Duality