Hilbert空间视角下的时间序列模型

Hilbert空间说起来和我国古代数学有着一定的渊源。《九章算术》里记载：“勾股术曰：勾股各自乘，并，而开方除之，即弦”。这条著名的勾股定理实质上蕴含了Hilbert空间中对于距离和正交的核心性质。

Hilbert空间特点是通过定义内积 $< \cdot , \cdot >$ 来导出范数，进而导出距离函数。由内积可以定义正交关系，即若 $<x,y>=0$ 则定义 $x , y$ 在空间中正交。一列彼此正交的元素 $ e_j $ 称为一组正交基，内积的概念给出了任意元素 $x$ 相对于这组正交基的坐标，即元素 $x$ 在各个正交基上的投影 $< x , e_j >$ .

最常见的 Hilbert 空间是 Euclidean 空间 $R^n$ ，即是线性代数研究的范畴。平面几何研究的是 $R^2$ ，勾股定理反映的性质就是属于这个空间内的。勾股定理用Hilbert空间中的概念表达即为：

给定 $R^2$ 中的一组标准正交基 ${e_1 , e_2}$ ,则任意点 $x$ 关于0元素的距离 $\parallel x \parallel$ 满足： $\parallel x \parallel^2=\mid<x , e_1>\mid^2 + \mid <x , e_2>\mid^2$ .

这条定理的一般形式正是Hilbert空间中著名的Parseval公式，前提是正交系 $\{e_j\}$ 是完备的。在此前提下，Parseval公式成立：

$$\parallel x \parallel^2 =\sum_j \mid < x , e_j >\mid^2$$

Parseval公式揭示了Hilbert空间的优良特点，即任一点的位置可以相对于一组完备正交基完全定义，而且这种定义完全保留了点与点之间的距离关系。这就给计算带来极大的便利。

时序模型研究的是一类特殊的Hilbert空间： $\mathscr{L}^2\{\Omega,\mathscr{F},P\}$ ，即一个定义在概率空间 $\{\Omega,\mathscr{F},P\}$ 上的平方可积函数集合，其中的内积定义为：

$$<X,Y>=E(XY)=\int_\Omega xydP(x,y)$$

在提出这个定义以前，时序中经常提到的“均方收敛”的概念难以理解：一个随机变量“均方收敛”的结果是另一随机变量，也就是说这个序列收敛的结果取值仍然是不确定的；这和数学分析中研究的收敛范畴大相径庭。实际上，“收敛”的确切含义是指点与点之间距离趋向于0，但是对于这种“距离”的定义在不同的空间中可以是不同的。数学分析中的距离由绝对值定义，而这里的“距离”则由内积定义。均方收敛实际上与上述距离的定义完全一致，即：

$$\parallel X_m-X_n \parallel =(E(X_m-X_n)^2)^{\frac{1}{2}}$$

再来看 $\mathscr{L}^2\{\Omega,\mathscr{F},P\}$ 的正交基的形式。其实最简单的正交基就是白噪声序列 $\{a_t\} \sim i.i.d(0,\sigma^2)$ ，因为

$$<a_i,a_j> = E a_ia_j=\delta_{ij}\sigma^2$$

为了应用之前的Parseval公式，严格的说需要证明 $\{a_t\}$ 是完备的。但如果我们只研究这组基生成的线性子空间 $\mathscr{H}:=\overline{sp}{a_j}$ ，那么显然在 $\mathscr{H}$ 上这组正交基是完备的。这个空间对线性时序模型已经完全足够了。

对于平稳的ARMA序列， $X_t$ 的信息是由t时刻以前的白噪声序列决定的，写成数学形式即

$$X_t\in\mathscr{H}_t:=\overline{sp}{a_j,j \leq t}$$

这反映了序列的鞅性质。更一般地， $X_t$ 在Hilbert子空间 $\overline{sp}{a_j,j \leq t}$ 有固定的表达，这就是模型的 $MA(\infty)$ 表示。但是在实际情况中对 $ \{X_j,j < t\} $ 的观测更为直接，因此我们也关心 $X_t$ 在 $\overline{sp}{X_j,j < t}$ 上的投影表达，即模型的 $AR(\infty)$ 表达形式。注意到 $\overline{sp}{X_j,j<t}=\overline{sp}{a_j,j<t}$ ，因此这两种表达形式本质是一致的，只是前者子空间的生成元不是正交基。

线性时序模型ARMA的预测问题可以归结为求解 $X_t$ 在空间 $\mathscr{H}_{t-1}$ 的投影，即在Hilbert子空间 $\mathscr{H}_{t-1}$ 中的最佳逼近元。最佳逼近元的泛函概念是在 $\mathscr{H}_{t-1}$ 中寻找使得距离 $\parallel X-\hat{X} \parallel$ 最小的估计值 $\hat{X}$ ，从范数的定义很容易看出，这个概念和统计上“均方误差最小”的概念是一致的。注意到在线性回归模型中，我们求解的目标也是 $\parallel y-\hat{y}\parallel $ 最小，但是线性回归模型中范数 $\parallel \cdot \parallel$ 是定义在Euclidean空间 $R^n$ 上的。最小二乘模型中的 $R^n$ 也是一种Hilbert空间，而 $R^n$ 和 $\mathscr{L}^2\{\Omega,\mathscr{F},P\}$ 的区别也说明了ARMA回归和线性回归的差别。线性回归模型的最小二乘法完全源于 $R^n$ 的性质，但是对于ARMA 模型来说， $ \parallel X-\hat{X} \parallel$ 的计算是几乎不可能的，因此首先都是通过构造一组由 $\{a_j,1 \leq j \leq t-1\}$ 作为正交基生成的Euclidean空间 $ R^{t-1} $ 去对 $\mathscr{H}_{t-1}$ 作近似，用 $R^{t-1}$ 中的范数近似 $\mathscr{H}_{t-1}$ 的范数。

这种做法背后的假设是，随机白噪声序列的观测值 $\{a_j,1 \leq j \leq t-1\}$ 在距离上典型的“代表意义”，即以观测值为基生成的欧式空间 $R^{t-1}$ 可以反映 $\mathscr{H}_{t-1}$ 空间中的距离信息，这个思想和极大似然估计是相似的，即把观测值都是具有典型性代表性的。有了这个空间的变换，就把原先非欧空间中的优化问题转化为欧式空间中的问题，解决起来也就容易多了。从算法上看，回归模型和ARMA模型都是在欧式空间中进行，方法十分类似；但是二者本质上是存在差别的，回归模型本身就是欧式空间中的问题，而把ARMA模型放到欧式空间中进行求解只是一种简化。当对统计量极限分布进行研究时，ARMA模型必须重新考虑在原有空间 $\mathscr{L}^2\{\Omega,\mathscr{F},P\}$ 中距离的定义，这个过程就远比线性回归模型要复杂了。

时间序列的谱分析实质上是在另一种Hilbert空间 $\mathscr{L}^2(F)$ 的视角下进行研究。Fourier变换定义了一个映射 $T : \mathscr{L}^2\{\Omega,\mathscr{F},P\}\rightarrow \mathscr{L}^2(F)$ ,该映射满足

$$TX_t=e^{it}$$

这两个空间是通过一个 $\mathscr{L}^2\{\Omega,\mathscr{F},P\}$ 上的正交增量过程 $Z(v)$ 发生联系的，其中

$$X_t=\int_{(-\pi,\pi]}e^{itv}dZ(v)$$

定义 $F(v):=var(Z(v)-Z(-\pi))$ ，则在空间 $\mathscr{L}^2(F)$ 上，利用Ito积分的有关性质得到：

$$<e^{i(t+h)},e^{it}>=\int e^{i(t+h)v-itv}dF(v)=\int e^{ihv}dF(v)=\gamma(h)$$ 因此在空间 $\mathscr{L}^2(F)$ 上可以直观地对自相关函数进行描述。函数 $F(v)$ 的导数 $f(v)$ 就是谱函数。对有限序列 $\{X_t,1 \leq t \leq n \}$ 作Fourier变换得到的序列 $f_n(\omega_j)$ ，就是 $f(v)$ 在各个频率上的估计。可以证明对固定的时序模型，该映射 $T$ 对应的正交增量过程 $Z(v)$ 以概率1恒定；所以相应的谱函数 $f(v)$ 是唯一的。

以上提到的两种Hilbert空间为时序模型提供了时域和频域两种不同的视角，也在泛函领域奠定了两种分析方法的的理论基础。在对时序模型统计量的收敛性进行分析时，以上两种视角是必不可少的。

Hilbert空间视角下的时间序列模型

左辰