标签归档:时间序列

COS 访谈第十五期:Rob J. Hyndman

【COS编辑部按】:受访者:Rob J. Hyndman,采访者:Earo Wang,译者:黄俊文。原文在这

Rob J. Hyndman 是澳大利亚的 Monash University 的统计学教授以及 International Journal of Forecasting 的主编。他也是 forecasthts 等广泛被使用的 R 包的作者。

Earo: 你曾经获得的是理学荣誉学士学位。那么你为什么选择统计学作为你的专业,以及统计学有什么吸引到你的呢?

Rob: 最初我在获得理学学位的途中,我没有想过统计学有关的东西,我本来是打算学习数学的。当时,Melbourne University 的数学相关专业的学生都要求在第一年上统计学,数学,计算机科学的课程。所以我就选择了统计学。不过我发现它很有趣,因为我很喜欢使用数学工具来解决现实问题的过程。 继续阅读COS 访谈第十五期:Rob J. Hyndman

用R动态的显示开店序列和空间分布

作者简介:陈少飞,美国Tango Management Consulting公司高级地理研究分析员,主要工作为在连锁零售/餐饮的商业地产咨询中,从空间优化的角度给客户制订选址方案,并预测店面销售额。05年开始接触R,主要研究R在地理信息科学方面的应用,包括可视化,空间回归,地统计和空间最优化等。

一张图可以解说一个场景,而很多张图连续起来形成的动画就可以讲一个故事。

7-Eleven 便利店是源于美国的全球最大的便利连锁店,后来被日本伊藤洋华堂公司收购,在全球拥有42000家持有或连锁的店面,在美国本土也有超过8000家店。动态的显示美国8000家店的开店序列和空间分布,可以揭示这家连锁企业的发展规律,也对其他零售连锁企业的发展有着借鉴作用。

从这个动画中,我们可以看到7-Eleven起源于达拉斯,但是很快就把店面开到东西海岸。在发展早期迅速走出本地市场的举动,让其很快占领了美国的主要市场,赢得了口碑,接下来不断的在这些已有市场增加店的密度。80年代后期,前阶段的扩张导致7-Eleven遭遇财政危机,频临破产,开店速度明显降低。进入到2000年后,随着日资的收购,资金获得保障,开店速度重新加快。2010年后,不受金融危机的影响,开始跳出现有市场,在新的市场迅速拓展,这一阶段又稍显盲目。

结合开店数目的静态时序图,我们可以更直观的了解7-Eleven的扩张速度。

7-11

该动画采用了R里的animation 包,并得到了该包的作者谢益辉的指点。数据来自于现任美国7-Eleven市场规划部的总监,分析解读来自前任美国7-Eleven地产部副总裁。

统计之都《本周导读》第十一辑

一、主站

这周本站共发布了2篇日志:

二、论坛

关于邀请大家成为统计之都高校联系人

  • 沈阳工程学院政法系陈阳老师

捐赠

  • 中国人民大学王剑

三、维基

COS维基建设需要您的建议和意见,请以回复或邮(wiki[at]cos.name)件形式反馈,谢谢。

Hilbert空间视角下的时间序列模型

Hilbert空间说起来和我国古代数学有着一定的渊源。《九章算术》里记载:“勾股术曰:勾股各自乘,并,而开方除之,即弦”。这条著名的勾股定理实质上蕴含了Hilbert空间中对于距离和正交的核心性质。

Hilbert空间特点是通过定义内积$ < \cdot , \cdot > $来导出范数,进而导出距离函数。由内积可以定义正交关系,即若$ <x,y>=0 $则定义$ x , y $在空间中正交。一列彼此正交的元素$ e_j $称为一组正交基,内积的概念给出了任意元素$ x $相对于这组正交基的坐标,即元素$ x $在各个正交基上的投影$ < x , e_j > $.

最常见的Hilbert空间是Euclidean空间$ R^n $,即是线性代数研究的范畴。平面几何研究的是$ R^2 $,“勾股定理”反映的性质就是属于这个空间内的。“勾股定理”用Hilbert空间中的概念表达即为:
给定$ R^2 $中的一组标准正交基${e_1 , e_2} $,则任意点$ x $关于0元素的距离$ \parallel x \parallel $满足:$ \parallel x \parallel^2=\mid<x , e_1>\mid^2 + \mid <x , e_2>\mid^2 $.

这条定理的一般形式正是Hilbert空间中著名的Parseval公式,前提是正交系$ \{e_j\} $是完备的。在此前提下,Parseval公式成立:

$ \parallel x \parallel^2 =\sum_j \mid < x , e_j >\mid^2 $

Parseval公式揭示了Hilbert空间的优良特点,即任一点的位置可以相对于一组完备正交基完全定义,而且这种定义完全保留了点与点之间的距离关系。这就给计算带来极大的便利。

时序模型研究的是一类特殊的Hilbert空间:$ \mathscr{L}^2\{\Omega,\mathscr{F},P\} $,即一个定义在概率空间$ \{\Omega,\mathscr{F},P\} $上的平方可积函数集合,其中的内积定义为:

$ <X,Y>=E(XY)=\int_\Omega xydP(x,y) $

在提出这个定义以前,时序中经常提到的“均方收敛”的概念难以理解:一个随机变量“均方收敛”的结果是另一随机变量,也就是说这个序列收敛的结果取值仍然是不确定的;这和数学分析中研究的收敛范畴大相径庭。实际上,“收敛”的确切含义是指点与点之间距离趋向于0,但是对于这种“距离”的定义在不同的空间中可以是不同的。数学分析中的距离由绝对值定义,而这里的“距离”则由内积定义。均方收敛实际上与上述距离的定义完全一致,即:

$ \parallel X_m-X_n \parallel =(E(X_m-X_n)^2)^{\frac{1}{2}} $

再来看$ \mathscr{L}^2\{\Omega,\mathscr{F},P\} $的正交基的形式。其实最简单的正交基就是白噪声序列$ \{a_t\} \sim i.i.d(0,\sigma^2) $,因为

$ <a_i,a_j> = E a_ia_j=\delta_{ij}\sigma^2 $

为了应用之前的Parseval公式,严格的说需要证明$ \{a_t\} $是完备的。但如果我们只研究这组基生成的线性子空间$ \mathscr{H}:=\overline{sp}{a_j} $,那么显然在$ \mathscr{H} $上这组正交基是完备的。这个空间对线性时序模型已经完全足够了。

对于平稳的ARMA序列,$ X_t $的信息是由t时刻以前的白噪声序列决定的,写成数学形式即

$ X_t \in\mathscr{H}_t:=\overline{sp}{a_j,j \leq t} $

这反映了序列的鞅性质。更一般地,$ X_t $在Hilbert子空间$ \overline{sp}{a_j,j \leq t} $有固定的表达,这就是模型的$ MA(\infty) $表示。但是在实际情况中对$ \{X_j,j < t\} $的观测更为直接,因此我们也关心$ X_t $ 在$ \overline{sp}{X_j,j < t} $上的投影表达,即模型的$ AR(\infty) $表达形式。注意到$ \overline{sp}{X_j,j<t}=\overline{sp}{a_j,j<t} $,因此这两种表达形式本质是一致的,只是前者子空间的生成元不是正交基。

线性时序模型ARMA的预测问题可以归结为求解$ X_t $在空间$ \mathscr{H}_{t-1} $的投影,即在Hilbert子空间$ \mathscr{H}_{t-1} $中的最佳逼近元。最佳逼近元的泛函概念是在$ \mathscr{H}_{t-1} $中寻找使得距离$ \parallel X-\hat{X} \parallel $最小的估计值$ \hat{X} $,从范数的定义很容易看出,这个概念和统计上“均方误差最小”的概念是一致的。注意到在线性回归模型中,我们求解的目标也是$ \parallel y-\hat{y} \parallel $最小,但是线性回归模型中范数$ \parallel \cdot \parallel $是定义在Euclidean空间$ R^n $上的。最小二乘模型中的$ R^n $也是一种Hilbert空间,而$ R^n $和$ \mathscr{L}^2\{\Omega,\mathscr{F},P\} $的区别也说明了ARMA回归和线性回归的差别。线性回归模型的最小二乘法完全源于$ R^n $的性质,但是对于ARMA 模型来说,$ \parallel X-\hat{X} \parallel $的计算是几乎不可能的,因此首先都是通过构造一组由$ \{a_j,1 \leq j \leq t-1\} $作为正交基生成的Euclidean空间$ R^{t-1} $去对$ \mathscr{H}_{t-1} $作近似,用$ R^{t-1} $中的范数近似$ \mathscr{H}_{t-1} $的范数。

这种做法背后的假设是,随机白噪声序列的观测值$ \{a_j,1 \leq j \leq t-1\} $在距离上典型的“代表意义”,即以观测值为基生成的欧式空间$ R^{t-1} $可以反映$ \mathscr{H}_{t-1} $空间中的距离信息,这个思想和极大似然估计是相似的,即把观测值都是具有典型性代表性的。有了这个空间的变换,就把原先非欧空间中的优化问题转化为欧式空间中的问题,解决起来也就容易多了。从算法上看,回归模型和ARMA模型都是在欧式空间中进行,方法十分类似;但是二者本质上是存在差别的,回归模型本身就是欧式空间中的问题,而把ARMA模型放到欧式空间中进行求解只是一种简化。当对统计量极限分布进行研究时,ARMA模型必须重新考虑在原有空间$ \mathscr{L}^2\{\Omega,\mathscr{F},P\} $中距离的定义,这个过程就远比线性回归模型要复杂了。

时间序列的谱分析实质上是在另一种Hilbert空间$ \mathscr{L}^2(F) $的视角下进行研究。Fourier变换定义了一个映射$ T : \mathscr{L}^2\{\Omega,\mathscr{F},P\}\rightarrow \mathscr{L}^2(F) $,该映射满足

$ TX_t=e^{it} $

这两个空间是通过一个$ \mathscr{L}^2\{\Omega,\mathscr{F},P\} $上的正交增量过程$ Z(v) $发生联系的,其中

$ X_t=\int_{(-\pi,\pi]}e^{itv}dZ(v) $

定义$ F(v):=var(Z(v)-Z(-\pi)) $,则在空间$ \mathscr{L}^2(F) $上,利用Ito积分的有关性质得到:

$ <e^{i(t+h)},e^{it}>=\int e^{i(t+h)v-itv}dF(v)=\int e^{ihv}dF(v)=\gamma(h) $

因此在空间$ \mathscr{L}^2(F) $上可以直观地对自相关函数进行描述。函数$ F(v) $的导数$ f(v) $就是谱函数。对有限序列$ \{X_t,1 \leq t \leq n \} $作Fourier变换得到的序列$ f_n(\omega_j) $,就是$ f(v) $在各个频率上的估计。可以证明对固定的时序模型,该映射$ T $对应的正交增量过程$ Z(v) $以概率1恒定;所以相应的谱函数$ f(v) $是唯一的。

以上提到的两种Hilbert空间为时序模型提供了时域和频域两种不同的视角,也在泛函领域奠定了两种分析方法的的理论基础。在对时序模型统计量的收敛性进行分析时,以上两种视角是必不可少的。

注:本文已经由COS编辑部整理为PDF(LaTeX)版本,读者可以下载:
http://cos.name/wp-content/uploads/2009/03/Hilbert空间视角下的时间序列模型.pdf