所有由rickjin发布的文章

[火光摇曳]神奇的伽玛函数(下)

原文链接: http://www.flickering.cn/?p=203

五、$ \Gamma(n) = (n-1)!$ 还是 $ \Gamma(n) = n! $ ? 

伽玛函数找到了,我们来看看第二个问题,为何伽玛函数被定义为满足 $\Gamma(n)=(n-1)!$? 这看起来挺别扭的,如果我们稍微修正一下,把伽玛函数定义中的 $t^{x-1}$ 替换为 $t^x$
$$ \Gamma(x) = \int_0^{\infty} t^{x}e^{-t}dt , $$
这不就可以使得 $\Gamma(n)=n!$了嘛。估计数学界每年都有学生问这个问题,然而答案却一直有一些争议。

欧拉最早的伽玛函数定义还真是如上所示,选择了$\Gamma(n)=n!$,事实上数学王子高斯在研究伽玛函数的时候, 一直使用的是如下定义:
$$ \Pi(x)=\int_{0}^\infty t^x e^{-t}\,dt ,$$
然而这个定义在历史上并没有流传开来。

legendre

勒让德肖像水彩画

欧拉在伽玛函数的推导中实际上引入了两类积分形式
$$ \int_0^1 t^{x}(1-t)^{y}dt, \quad \quad \int_0^{\infty} t^{x}e^{-t}dt $$
现在我们分别称为欧拉一类积分和欧拉二类积分。勒让德追随欧拉的脚步,发表了多篇论文对欧拉积分进行了深入的研究和推广,不过在勒让德的研究中,对积分中的参数做了 $-1$的移位修改,主要定义为
$$ B(x, y) = \int_0^1 t^{x-1}(1-t)^{y-1}dt $$

$$ \Gamma(x) = \int_0^{\infty} t^{x-1}e^{-t}dt .$$
$B(x,y)$ 现在称为贝塔积分或者贝塔函数。其中$\Gamma(x)$ 的这个定义选择导致了 $ \Gamma(n) = (n-1)!$ 。实际上伽马函数中的$\Gamma$符号历史上就是勒让德首次引入的,而勒让德给出的这个伽玛函数的定义在历史上起了决定作用,该定义被法国的数学家广泛采纳并在世界范围推广,最终使得这个定义在现代数学中成为了既成事实。

继续阅读[火光摇曳]神奇的伽玛函数(下)

[火光摇曳]神奇的伽玛函数(上)

原文链接: http://www.flickering.cn/?p=163

一、开篇

数学爱好者们汇集在网络论坛上的一大乐事就是对各类和数学相关的事物评头论足、论资排辈。如果要评选历史上最伟大的数学家,就会有一大堆的粉丝围绕高斯、黎曼、牛顿、欧拉、阿基米德等一流人物展开口水战;如果要讨论最奇妙的数学常数,$e, \pi, \phi=\frac{\sqrt{5}-1}{2} $ 肯定在候选队列中;如果要推举最美丽的数学公式,欧拉公式 $e^{i\pi} + 1= 0$ 与和式 $ 1 + \frac{1}{2^2} + \frac{1}{3^2} + \frac{1}{4^2} + \cdots = \frac{\pi^2}{6} $ 常常被数学爱好者们提及;如果有人追问最神奇的数学函数是什么? 这个问题自然又会变得极具争议,而我相信如下这个长相有点奇特的伽玛函数
$$ \Gamma(x)=\int_0^{\infty}t^{x-1}e^{-t}dt $$
一定会出现在候选队列中。

伽玛函数不是初等函数,而是用积分形式定义的超越函数,怎么看都让人觉得不如初等函数自然亲切。然而伽玛函数也被称为阶乘函数,高等数学会告诉我们一个基本结论:伽玛函数是阶乘的推广。通过分部积分的方法,容易证明这个函数具有如下的递归性质
$$\Gamma(x+1) = x \Gamma(x)$$
由此可以推导出,对于任意的自然数$n$
$$\Gamma(n) = (n-1)! .$$
由于伽玛函数在整个实数轴上都有定义,于是可以看做阶乘概念在实数集上的延拓。

如果我们继续再学习一些数学,就会惊奇地发现这个具有神秘气质的伽玛函数真是才华横溢。她栖身于现代数学的各个分支,在微积分、概率论、偏微分方程、组合数学, 甚至是看起来八竿子打不着的数论当中,都起着重要的作用。 并且这个函数绝非数学家们凭空臆想的一个抽象玩具,它具有极高的实用价值,频繁现身于在现代科学尤其是物理学之中。

笔者对数学的涉猎很有限,主要是从概率统计中频繁地接触和学习这个函数,不过这个函数多年来一直都让我心存疑惑:

  • 都说$n!$ 和伽玛函数是近亲,可是从相貌上这两个数学公式都差了十万八千里,历史上数学家们是如何找到这个奇特的函数的?
  •  现代数学对伽玛函数的定义使它满足 $\Gamma(n) = (n-1)!$,既然号称是$n!$ 的推广,为何定义伽玛函数的时候不让它满足$\Gamma(n) = n!$?这看起来不是更加舒服自然吗?
  •  伽玛函数是唯一满足阶乘特性的推广函数吗?
  •  伽玛函数在各种概率分布的密度函数中频繁出现,伽玛函数本身是否有直观的概率解释?

带着这些疑问,笔者翻阅了许多讲解伽马函数历史和应用的资料,发现伽玛函数真是一个来自异族的美女,与生俱来携带着一种神秘的色彩。你要接近她并不难,然而她魅力独特,令你无法看透。从她出生开始,就吸引着众多一流的数学家对她进行解读。 历史上伽玛函数的发现,和数学家们对阶乘、插值以及积分的研究有着紧密的关系,而这最早要从著名的沃利斯公式讲起。

继续阅读[火光摇曳]神奇的伽玛函数(上)

LDA-math-LDA 文本建模

5. LDA 文本建模

5.1 游戏规则

对于上述的 PLSA 模型,贝叶斯学派显然是有意见的,doc-topic 骰子$\overrightarrow{\theta}_m$和 topic-word 骰子$\overrightarrow{\varphi}_k$都是模型中的参数,参数都是随机变量,怎么能没有先验分布呢?于是,类似于对 Unigram Model 的贝叶斯改造, 我们也可以如下在两个骰子参数前加上先验分布从而把 PLSA 对应的游戏过程改造为一个贝叶斯的游戏过程。由于 $\overrightarrow{\varphi}_k$和$\overrightarrow{\theta}_m$都对应到多项分布,所以先验分布的一个好的选择就是Drichlet 分布,于是我们就得到了 LDA(Latent Dirichlet Allocation)模型。

lda-diceLDA模型

在 LDA 模型中, 上帝是按照如下的规则玩文档生成的游戏的

game-lda-1

继续阅读LDA-math-LDA 文本建模

LDA-math-文本建模

4. 文本建模

我们日常生活中总是产生大量的文本,如果每一个文本存储为一篇文档,那每篇文档从人的观察来说就是有序的词的序列 $d=(w_1, w_2, \cdots, w_n)$。

corpus
包含$M$ 篇文档的语料库

统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏,人类产生的所有的语料文本我们都可以看成是一个伟大的上帝在天堂中抛掷骰子生成的,我们观察到的只是上帝玩这个游戏的结果 —— 词序列构成的语料,而上帝玩这个游戏的过程对我们是个黑盒子。所以在统计文本建模中,我们希望猜测出上帝是如何玩这个游戏的,具体一点,最核心的两个问题是

  • 上帝都有什么样的骰子;
  • 上帝是如何抛掷这些骰子的;

第一个问题就是表示模型中都有哪些参数,骰子的每一个面的概率都对应于模型中的参数;第二个问题就表示游戏规则是什么,上帝可能有各种不同类型的骰子,上帝可以按照一定的规则抛掷这些骰子从而产生词序列。

dice-all god-throw-dice

上帝掷骰子

4.1 Unigram Model

假设我们的词典中一共有 $V$ 个词 $v_1, v_2, \cdots v_V$,那么最简单的 Unigram Model 就是认为上帝是按照如下的游戏规则产生文本的。

game-unigram-model

上帝的这个唯一的骰子各个面的概率记为 $\overrightarrow{p} = (p_1, p_2, \cdots, p_V)$, 所以每次投掷骰子类似于一个抛钢镚时候的贝努利实验, 记为 $w\sim Mult(w|\overrightarrow{p}) $。

unigram-model上帝投掷$V$ 个面的骰子

继续阅读LDA-math-文本建模

正态分布的前世今生(下)

6. 开疆拓土,正态分布的进一步发展

19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态误差理论的问世,正态分布开始崭露头角,逐步在近代概率论和数理统计学中大放异彩。在概率论中,由于拉普拉斯的推动,中心极限定理发展成为现代概率论的一块基石。而在数理统计学中,在高斯的大力提倡之下,正态分布开始逐步畅行于天下。

6.1 论剑中心极限定理

先来说说正态分布在概率论中的地位,这个主要是由于中心极限定理的影响。 1776 年,拉普拉斯开始考虑一个天文学中的彗星轨道的倾角的计算问题,最终的问题涉及独立随机变量求和的概率计算,也就是计算如下的概率值
$$ S_n = X_1 + X_2 + \cdots + X_n $$
$$P(a < S_n < b) = ? $$

在这个问题的处理上,拉普拉斯充分展示了其深厚的数学分析功底和高超的概率计算技巧,他首次引入了特征函数(也就是对概率密度函数做傅立叶变换)来处理概率分布的神妙方法,而这一方法经过几代概率学家的发展,在现代概率论里面占有极其重要的位置。基于这一分析方法,拉普拉斯通过近似计算,在他的1812年发表的名著《概率分析理论》中给出了中心极限定理的一般描述:

定理:[拉普拉斯, 1812]  $ e_i (i=1, \cdots n)$ 为独立同分布的测量误差,具有均值$\mu$ 和方差 $\sigma^2$。如果 $\lambda_1, \cdots, \lambda_2$ 为常数, $a>0$, 则有
$$ \displaystyle P\left(\left|\sum_{i=1}^n \lambda_i(e_i – \mu)\right|
\le a \sqrt{\sum_{i=1}^n \lambda_i^2}\right)
\approx \frac{2}{\sqrt{2\pi}\sigma} \int_0^a e^{-\frac{x^2}{2\sigma^2}} dx . $$

这已经是比棣莫弗-拉普拉斯中心极限定理更加深刻的一个结论了,理科专业的本科生学习《概率论与数理统计》这门课程的时候,通常学习的中心极限定理的一般形式如下:

[林德伯格-列维 中心极限定理] 设$X_1,\cdots, X_n$ 独立同分布,且具有有限的均值 $\mu$ 和方差 $\sigma^2$ ,则在 $n \rightarrow \infty$ 时,有
$$ \displaystyle \frac{\sqrt{n}(\overline{X} – \mu)}{\sigma} \rightarrow N(0,1) .$$

多么奇妙的性质,随意的一个概率分布中生成的随机变量,在序列和(或者等价的求算术平均)的操作之下,表现出如此一致的行为,统一的规约到正态分布。

central_limit_theorem中心极限定理

概率学家们进一步的研究结果更加令人惊讶,序列求和最终要导出正态分布的条件并不需要这么苛刻,即便 $X_1,\cdots, X_n$ 并不独立,也不具有相同的概率分布形式,很多时候他们求和的最终的归宿仍然是正态分布。一切的纷繁芜杂都在神秘的正态曲线下被消解,这不禁令人浮想联翩。中心极限定理恐怕是概率论中最具有宗教神秘色彩的定理,如果有一位牧师拿着一本圣经向我证明上帝的存在,我是丝毫不会买账;可是如果他向我展示中心极限定理并且声称那是神迹,我可能会有点犹豫,从而乐意倾听他的布道。如果我能坐着时光机穿越到一个原始部落中,我也一定带上中心极限定理,并劝说部落的酋长把正态分布作为他们的图腾。

继续阅读正态分布的前世今生(下)