这页PPT介绍的是“广义距离”(Generalised distance)的概念。

老规矩,先来总结:广义距离是一个多维度的度量,它衡量了一个点在考虑变量之间相关性的情况下,与均值向量的偏离程度。

为什么要了解这些概念?因为广义距离是多元统计分析中的基础工具,它可以帮助你理解和处理多维数据集中各观测值的行为,尤其是它们如何相对于整体数据分布的中心位置分布。

这些概念之间的联系:

标准化距离在一维空间内量化单个数据点与均值的偏离程度。

广义距离扩展了这一概念到多维空间,它不仅考虑单个数据点在每个维度上的偏离,而且还考虑了各个维度间的相关性。

这两个概念都基于距离的概念,它们将距离从物理空间的直观理解推广到统计分布的上下文中。

应用场景:

异常值检测:在多元数据中,可以使用广义距离来识别那些与平均分布模式显著不同的观测值。

聚类分析:在对数据进行分组时,广义距离可以帮助确定哪些观测值彼此相似,并因此应该被分类到同一个群体。

多变量控制图:在质量管理中,利用广义距离可以监控多个相关过程变量的稳定性。

判别分析:当需要根据观测数据将个体分类到不同预设类别中时,广义距离可以作为分类决策的依据。

多元正态分布的性质:在多元正态分布中,观测值到均值向量的广义距离服从卡方分布,这个性质可用于假设检验和置信区间的建立。

首先,我们从标准的一维情形开始,即单变量的情况: \[ \frac{(x - \mu)^2}{\sigma^2} \]

这个公式是测量单个数据点 $ x $ 与均值 $ $ 之间距离的一个方法,但这个距离是以标准差的单位来衡量的。它被称为标准化距离或z得分(z-score),表示数据点 $ x $ 距离均值 $ $ 有多少个标准差。公式的本质是量化 $ x $ 偏离均值的程度。

在多元统计中,我们不只考虑一个变量,而是多个变量。在这种情况下,我们会有一个 $ $ 的向量 $ x $ ,它表示一个数据点在多个维度上的值,以及一个 $ $ 的向量 $ $ ,它表示这些维度上的均值。同时,我们也会有一个 $ $ 的协方差矩阵 $ $ ,它不仅包含各变量的方差,还包括不同变量之间的协方差。

详细参考: 广义距离公式计算

广义距离是这样定义的:

\[(x - \mu)' \Sigma^{-1} (x - \mu)\]

这里, $ ^{-1} $ 是协方差矩阵的逆矩阵,而 $ (x - )' $ 是 $ (x - ) $ 的转置。

这个公式的几何意义是,在多维空间中测量数据点 $ x $ 到均值 $ $ 的距离,但是考虑了不同变量之间的相关性。通过协方差矩阵(Covariance Matrix)的逆,我们能够调整每个维度上的距离,以反映变量之间的相关性。

在实际应用中,广义距离可以用于多元正态分布下的异常值检测,聚类分析等。当 $ x $ 在多维空间中的位置远离 $ $ ,并且考虑到了变量之间的协方差后,这个距离会相应增大,反映出 $ x $ 是一个不寻常的观测值。

需要注意的是,广义距离只有在协方差矩阵 $ $ 可逆时才有定义,这通常要求数据中的观测数要大于变量数,以确保 $ $ 不是奇异的。

这页PPT继续讲解了多维空间中的正态分布和广义距离的概念。 首先,我们定义一个 $ $ 维向量 $ $ ,它代表随机向量 $ X $ 的期望值或均值,这个期望值向量的每一个分量 $ _i $ 对应 $ X $ 的每一个维度的均值。

其次, $ $ 维协方差矩阵 $ $ 代表随机向量 $ X $ 的方差-协方差矩阵。在这个矩阵中,对角线上的元素 $ ^2_{ii} $ 代表第 $ i $ 个随机变量的方差,而非对角线上的元素 $ _{ij} $ 代表不同随机变量之间的协方差,描述它们的线性相关程度。

接下来,PPT介绍了 $ $ -维正态分布的概率密度函数:

\[ f(x) = \frac{1}{(2\pi)^{\rho/2} |\Sigma|^{1/2}} e^{-\frac{1}{2}(x-\mu)'\Sigma^{-1}(x-\mu)} \]

这里:

$ (2)^{/2} $ 和 $ ||^{1/2} $ 是归一化常数的一部分,确保概率密度函数的整体积分为1。

$ e{-(x-)'{-1}(x-)} $ 是多元正态分布的核心部分,类似于一维正态分布中的 $ e^{-} $ ,但是它包含了多个变量和它们之间的协方差。

这个多元正态分布的形状由均值向量 $ $ 和协方差矩阵 $ $ 决定。均值向量确定了分布的中心位置,而协方差矩阵不仅影响了分布的形状和宽度,还反映了各个变量之间的相关性。如果 $ $ 是对角矩阵(即各变量间无协方差),那么多元正态分布将退化为各变量独立的一维正态分布的乘积。

附录

广义距离公式计算

在二维空间中,让我们假设有一个均值向量 $ $ 和一个协方差矩阵 $ $ 如下:

均值向量 $ $ : \[ \begin{bmatrix} 0 \\ 0 \end{bmatrix} \]

协方差矩阵 $ $ : \[ \begin{bmatrix} 1 & 0.5 \\ 0.5 & 2 \end{bmatrix} \]

其中,对角线上的值 1 和 2 分别是两个变量的方差,非对角线上的值 0.5 是这两个变量的协方差,表示它们之间存在一定的正相关关系。

假设我们有一个观测向量 $ x $ ,它在这两个维度上的值为 $ \[\begin{bmatrix} 1 \\ 3 \end{bmatrix}\]

$ 。我们可以计算这个观测向量与均值向量 $ $ 之间的广义距离: 广义距离公式: \[ (x - \mu)' \Sigma^{-1} (x - \mu) \]

我们将继续计算 $ $ 的逆矩阵,然后计算 $ x $ 与 $ $ 之间的广义距离。

计算出来的协方差矩阵 $ $ 的逆矩阵 $ ^{-1} $ 是:

\[ \Sigma^{-1} = \begin{bmatrix} 1.14285714 & -0.28571429 \\ -0.28571429 & 0.57142857 \end{bmatrix} \]

而观测向量 $ x = \[\begin{bmatrix} 1 \\ 3 \end{bmatrix}\] $ 与均值向量 $ = \[\begin{bmatrix} 0 \\ 0 \end{bmatrix}\]

$ 之间的广义距离是 4.57142857142857。

所以,如果将 $ x $ 和 $ $ 代入广义距离公式: \[ (x - \mu)' \Sigma^{-1} (x - \mu) = \begin{bmatrix} 1 & 3 \end{bmatrix} \begin{bmatrix} 1.14285714 & -0.28571429 \\ -0.28571429 & 0.57142857 \end{bmatrix} \begin{bmatrix} 1 \\ 3 \end{bmatrix} \]

我们得到了一个数值,该数值反映了 $ x $ 在这个多维空间中的位置相对于 $ $ 的偏离程度,并且已经考虑了变量间的相关性。这个距离较大,可能意味着 $ x $ 是一个异常值。

如何通过协方差矩阵的逆,来调整每个维度上的距离?

协方差矩阵 $ $ 的逆 $ ^{-1} $ 在广义距离公式中起到调整各维度权重的作用。具体来说:

  1. 方差的调整:在对角线上,协方差矩阵 $ $ 的逆 $ ^{-1} $ 中的元素是各个变量方差的倒数。方差大的变量在广义距离中的权重会减小,因为它们本身允许更大的变动。反之,方差小的变量权重会增大。

  2. 协方差的调整:在协方差矩阵 $ $ 的逆 $ ^{-1} $ 中,非对角线上的元素代表变量之间的协方差关系。正协方差表明两个变量同时增加或减少,而负协方差则相反。当我们使用 $ ^{-1} $ ,实际上是在调整每个维度上的距离,使其反映出这些变量之间的相关性。

    1. 距离的调整:在计算广义距离时,观测向量 $ x $ 和均值向量 $ $ 之间的偏差 $ (x - ) $ 会乘以 $ ^{-1} $ 。这个乘法操作实际上是在重新缩放和旋转原始空间中的偏差,以考虑变量间的相关性。结果是,如果两个变量高度相关,它们共同的偏离会被认为不如单独在一个维度上的偏离那么异常。

例如,如果两个变量 $ X_1 $ 和 $ X_2 $ 正相关,那么一个在 $ X_1 $ 上高而在 $ X_2 $ 上低的值可能会被视为异常,因为我们预期这两个变量会一起增加或减少。 $ ^{-1} $ 会调整这种偏离的权重,确保广义距离反映出了这种异常。

这样, $ ^{-1} $ 不仅在数值上调整了各维度的重要性,还考虑到了它们之间的关系,这使得广义距离能够在多维空间中更准确地测量点与分布中心的偏离程度。