从统计学角度来看深度学习(2):自动编码器和自由能

原文链接:http://blog.shakirm.com/2015/03/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy/

作者:Shakir Mohamed  翻译:钟琰    审校:何通    编辑:王小宁

本文得到了原英文作者Shakir Mohamed的授权同意,由钟琰翻译、何通审校。感谢他们的支持和帮助。

基于前馈深度神经网络的判别模型已经在许多工业应用中获得了成功,引发了探寻如何利用无监督学习方法带来相似结果的热潮。降噪自动编码器是深度学习中一种主要的无监督学习方法。本文将探索降噪自编码器和统计学中密度估计之间的联系,我们将从统计学的视角去考察降噪自动编码器学习方法,并将之视为一种潜在因子模型的推断问题。我们的机器学习应用能从这样的联系中获得启发并受益。

广义的降噪自动编码器(GDAEs

降噪自动编码器是无监督深度学习中的一个重大进步,它极大的提升了数据表示的可扩展性和稳健性。对每个数据点y,降噪自动编码器先利用一个已知的噪化过程$\mathcal{C}(\mathbf{y}’|\mathbf{y})$建立一个$\mathbf{y}$的含噪声版本$\mathbf{y}’$,其后我们以$\mathbf{y}’$为输入利用神经网络来重新恢复原始数据$\mathbf{y}$。整个学习网络可以被分为两个部分:编码器和解码器,其中编码器$\mathbf{z}$的输出可被认为是原始数据的一种表示或特征。该问题的目标函数如下[1]:

$ \textrm{Perturbation:}\quad \mathbf{y}’ \sim\mathcal{C}(\mathbf{y}’|\mathbf{y})$

$\textrm{Encoder:}\quad \mathbf{z(y’)} = f_\phi (\mathbf{y’})\qquad\textrm{Decoder:}\quad \mathbf{y} \approx g_\theta (\mathbf{z})$

$\textrm{Objective:}\quad\mathcal{L}_{DAE} = \log p(\mathbf{y} |\mathbf{z})$

Continue reading 从统计学角度来看深度学习(2):自动编码器和自由能

数据科学中的“数据智慧”

原文链接:http://www.odbms.org/2015/04/data-wisdom-for-data-science/

作者:Bin Yu   翻译:吕翔  张心雨    审校:施涛 高涛   编辑:王小宁

本文得到了原英文作者郁彬的授权同意,由吕翔和张心雨翻译、施涛和高涛审校。感谢他们的支持和帮助。

在大数据时代,学术界和业界的大量研究都是关于如何以一种可扩展和高效率的方式来对数据进行储存,交换和计算(通过统计方法和算法)。这些研究领域无疑非常重要,然而,只有当我们对数据智慧(Data Wisdom)也给予同等程度的重视时,大数据(或者小型数据)才能被转换为真正的知识和有用的,可被采纳的信息。换而言之,我们要认识到必须拥有足够数量的数据才有可能对复杂度较高的问题给出较可靠的答案。“数据智慧”对于我们从数据中提取有效信息和确保没有误用或夸大原始数据是至关重要的。

“数据智慧”一词是我对应用统计学核心部分的重新定义。这些核心部分在伟大的统计学家(或者说是数据科学家)John W. Tukey 和 Geogre Box 的文章中有详细阐述。

Continue reading 数据科学中的“数据智慧”

COS每周精选:从数据的角度来谈谈中国股市

本期投稿: 邓一硕 朱雪宁 冯凌秉 谢益辉 何通  冷静

编辑:王小宁

中国系统性金融风险有多大?近期中国股市表现抢眼,不少人开始担心金融风险,在纽约大学Stern商学院计算的国家金融系统性风险中,中国的系统性风险创出新高,相关链接请戳。测算方案简单明了:假定股票市场半年内下跌40%,需要注入多少资金才能避免金融机构资不抵债。参考论文。

摩尔定律大家都很熟悉,但你知道吗,生命复杂度方面也有类似的“摩尔定律”。美国巴尔的摩老化研究中心的研究人员发现,从最初的原核生物到哺乳动物之间,每隔3.76亿年生命复杂度就会翻一番。也就是说,生物复杂度的摩尔周期是3.76亿年。 详情猛戳

Continue reading COS每周精选:从数据的角度来谈谈中国股市

从统计学角度来看深度学习(1):递归广义线性模型

原文链接:http://blog.shakirm.com/2015/01/a-statistical-view-of-deep-learning-i-recursive-glms/

作者:Shakir Mohamed        翻译:王小宁      审校:冯凌秉  朱雪宁   编辑:王小宁

本文得到了原英文作者Shakir Mohamed的授权同意,由王小宁翻译、冯凌秉和朱雪宁审校。感谢他们的支持和帮助。

深度学习及其应用已经成为实用机器学习的一个关键工具。神经网络和许多现有的统计学、机器学习方法有同等重要的地位,我将在这篇文章中探索其中的一个观点。

看待深度神经网络,我们这里选择一个特别的角度:就是它可以被看做是一个递归的广义线性模型。广义线性模型作为概率建模的基石之一,在实验科学的应用中无处不在,并且极其实用。这篇文章集中讨论前馈神经网络(Feed Forward Neural Network),而关于回馈式神经网络(Recurrent Network)与前者的统计联系,我将在以后文章中讨论。

广义线性模型(GLMs)

基本的线性回归模型是一个从由自变量X组成的P维空间到一组因变量Y组成的空间的线性映射。具体地,该线性映射是指通过一组权重(或回归系数) 对X进行加权,并与截距项 的和。线性回归的输出可以是多元的,但在本文中假定其输出为标量。完整的概率模型假定上述线性模型受到高斯噪音的干扰(一般假设其方差未知)。

$\eta=\beta^Tx+\beta_0$

$y = \eta+\epsilon \qquad \epsilon \sim \mathcal{N}(0,\sigma^2)$

 在此公式中, η是该模型的系统成分, ε是随机扰动项。广义线性模型(GLMs) [2]使我们能够对这一模型进行扩展,允许因变量的分布不局限于高斯分布而扩展到更广泛的分布(例如典型的指数分布族)。在这种情况下,我们可以写出广义回归问题,结合系数和偏置为更紧凑的表示法,如:

$\eta = \beta^\top x, \qquad \beta=[\hat \beta, \beta_0], x = [\hat{x}, 1]$

$\mathbb{E}[y] = \mu = g^{-1}(\eta)$

其中g(•)是连接函数,使我们能够从自然参数η求出均值参数μ 。如果把这个连接函数定义成是逻辑斯蒂函数,那么均值参数对应着服从伯努利分布的y等于1或0的概率。

有很多其他的连接函数让我们能够为目标(响应)变量y的分布做出不同假设。在深度学习中,连结函数一般指激活函数,我在下表中列出了它们在两个领域中的名称。从这个表中我们可以看出,很多流行的方法在神经网络与统计学中是一样的,但是在相关文献中(有时)有着完全不一样的名字,如统计中的多项分类回归(multimonial)和深度学习中的softmax分类,或是深度学习中的整流器以及统计中的截取回归模型,它们其实是一样的。

目标
类型 回归 连结 连结的逆 激活
实数 先行 身份 身份
二元 逻辑斯蒂 逻辑斯蒂$ \log\frac{\mu}{1 – \mu}$ S型σ$\frac{1}{1 + \exp(-\eta)}$ S型
二元 概率 逆的高斯累计分布函数$\Phi^{-1}(\mu)$ 高斯分布函数$ \Phi(\eta)$ 概率
二元 耶贝尔分布 Compl. log-log$ log(-log(\mu))$ 耶贝尔累计分布函数$e^{-e^{-x}}$
二元 逻辑斯蒂 双曲正切$\tanh(\eta)$ Tanh
分类的 多项式 多项式逻辑斯蒂$\frac{\eta_i}{\sum_j \eta_j}$ SOFTMAX
计数 泊松 $\log{\mu}$ $\exp(\nu)$
计数 泊松  $\sqrt(\mu)$  $\nu^2$
非负的 伽玛 倒数$\frac{1}{\mu}$  $\frac{1}{\nu}$
稀疏的 截取回归  最大值$\max(0;\nu)$ 纠正线性单位
顺序 序数 累积的逻辑斯蒂回归

Continue reading 从统计学角度来看深度学习(1):递归广义线性模型

COS沙龙第28期(北京)纪要

28沙龙纪要主题:数据分析的道与术
嘉宾:毕然
主办:统计之都
场地:中国人民大学
组织:蔡占锐、钟琰、丁维悦、闫晗
纪要:钟琰

2015年5月10日,第28期沙龙(北京站)在中国人民大学顺利举行。嘉宾毕然先生热情亲切的与大家交流分享了关于数据分析的术与道的心得。本次沙龙由人大研究生丁维悦主持,嘉宾毕然先生专注于理论与实践的相互促进,涉猎于大数据分析与建模、经济与商业机制、营销与心理学、互联网产品战略等几个方面的研究。

以下为本期沙龙主要内容的回顾:

Continue reading COS沙龙第28期(北京)纪要