分类目录归档:数学方法

与统计学有关的数学理论方法

COS每周精选:算法学习知哪些?

本期投稿:谢益辉 王威廉   冷静   王小宁

编辑:王小宁

算法

K-means是最常用的聚类算法之一:容易理解,实现不难,虽然会有local optimum,但通常结果也不差。但k-means也不是万金油,比如在一些比较复杂的问题和非线性数据分布上,k-means也会失败。普林斯顿博士David Robinson写了一篇不错的分析文章,介绍了几种k-means会失效的情形。

基于遗传算法的小车模拟, 还有遗传算法的行者,看着有一大拨僵尸来袭的感觉、遗传算法的猫

继续阅读COS每周精选:算法学习知哪些?

COS每周精选:测度论学习那些事

本期投稿:尤晓斌

编辑:王小宁

统计学博士应该学什么课程,作者倾向认为学测度论是“无害的”,但不是必要的。概率论与数理统计这个大学科有太多分支,一个统计人穷尽一生也很难涉猎全部。文后用了个简明扼要的比喻,你不可能因为奥尼尔(NBA球星)不会罚球就就不把他当个篮球明星。文末大神们的评论很值得阅读。

测度论有利于抽象思维,这是一个剑走偏锋的论点,认为统计学者的“两大要务”是抽象与推广,即把现有的统计方法抽象为理论,且推广到未使用的领域。而学习测度论有利于帮助统计人建立抽象化思维,并将理论推广。文末作者吊轨地来了句:除了测度论,用编程实现统计方法也是一种抽象化的过程。这无疑是紧跟时代潮流的政治正确啊!

继续阅读COS每周精选:测度论学习那些事

[火光摇曳]神奇的伽玛函数(下)

原文链接: http://www.flickering.cn/?p=203

五、$ \Gamma(n) = (n-1)!$ 还是 $ \Gamma(n) = n! $ ? 

伽玛函数找到了,我们来看看第二个问题,为何伽玛函数被定义为满足 $\Gamma(n)=(n-1)!$? 这看起来挺别扭的,如果我们稍微修正一下,把伽玛函数定义中的 $t^{x-1}$ 替换为 $t^x$
$$ \Gamma(x) = \int_0^{\infty} t^{x}e^{-t}dt , $$
这不就可以使得 $\Gamma(n)=n!$了嘛。估计数学界每年都有学生问这个问题,然而答案却一直有一些争议。

欧拉最早的伽玛函数定义还真是如上所示,选择了$\Gamma(n)=n!$,事实上数学王子高斯在研究伽玛函数的时候, 一直使用的是如下定义:
$$ \Pi(x)=\int_{0}^\infty t^x e^{-t}\,dt ,$$
然而这个定义在历史上并没有流传开来。

legendre

勒让德肖像水彩画

欧拉在伽玛函数的推导中实际上引入了两类积分形式
$$ \int_0^1 t^{x}(1-t)^{y}dt, \quad \quad \int_0^{\infty} t^{x}e^{-t}dt $$
现在我们分别称为欧拉一类积分和欧拉二类积分。勒让德追随欧拉的脚步,发表了多篇论文对欧拉积分进行了深入的研究和推广,不过在勒让德的研究中,对积分中的参数做了 $-1$的移位修改,主要定义为
$$ B(x, y) = \int_0^1 t^{x-1}(1-t)^{y-1}dt $$

$$ \Gamma(x) = \int_0^{\infty} t^{x-1}e^{-t}dt .$$
$B(x,y)$ 现在称为贝塔积分或者贝塔函数。其中$\Gamma(x)$ 的这个定义选择导致了 $ \Gamma(n) = (n-1)!$ 。实际上伽马函数中的$\Gamma$符号历史上就是勒让德首次引入的,而勒让德给出的这个伽玛函数的定义在历史上起了决定作用,该定义被法国的数学家广泛采纳并在世界范围推广,最终使得这个定义在现代数学中成为了既成事实。

继续阅读[火光摇曳]神奇的伽玛函数(下)

奇异值分解和图像压缩

【2.18更新】:楠神写了一个非常gelivable的Shiny应用,用来动态展示图片压缩的效果随k的变化情况。谢大大把这个应用放到了RStudio的服务器上,大家可以点进去玩玩看了。

=====================代表正义的分割线=====================

今天我们来讲讲奇异值分解和它的一些有意思的应用。奇异值分解是一个非常,非常,非常大的话题,它的英文是 Singular Value Decomposition,一般简称为 SVD。下面先给出它大概的意思:

对于任意一个 $m\times n$ 的矩阵 $M$,不妨假设 $m>n$,它可以被分解为

$$M=UDV^T$$

其中

  • $U$ 是一个 $m\times n$ 的矩阵,满足 $U^T U=I_n$,$I_n$ 是 $n\times n$ 的单位阵
  • $V$ 是一个 $n\times n$ 的矩阵,满足 $V^T V=I_n$
  • $D$ 是一个 $n\times n$ 的对角矩阵,所有的元素都非负

先别急,我看到这个定义的时候和你一样晕,感觉信息量有点大。事实上,上面这短短的三条可以引发出 SVD 许多重要的性质,而我们今天要介绍的也只是其中的一部分而已。

继续阅读奇异值分解和图像压缩

LDA-math-MCMC 和 Gibbs Sampling

3.1 随机模拟

随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现。

simulation随机模拟与计算机

现代的统计模拟方法最早由数学家乌拉姆提出,被Metropolis命名为蒙特卡罗方法,蒙特卡罗是著名的赌场,赌博总是和统计密切关联的,所以这个命名风趣而贴切,很快被大家广泛接受。被不过据说费米之前就已经在实验中使用了,但是没有发表。说起蒙特卡罗方法的源头,可以追溯到18世纪,布丰当年用于计算$\pi$的著名的投针实验就是蒙特卡罗模拟实验。统计采样的方法其实数学家们很早就知道,但是在计算机出现以前,随机数生成的成本很高,所以该方法也没有实用价值。随着计算机技术在二十世纪后半叶的迅猛发展,随机模拟技术很快进入实用阶段。对那些用确定算法不可行或不可能解决的问题,蒙特卡罗方法常常为人们带来希望。 继续阅读LDA-math-MCMC 和 Gibbs Sampling