数据共线性问题

数据共线性 (Collinearity) 问题

Tip

在一般的线性模型中，共线性问题并非一个统计问题，而是一个纯粹的代数结构问题 (Algebraic Structure Issue)。其本质在于，模型中的解释变量所构成的列向量集合，未能在一个 $n$ 维向量空间中张成一个 $p$ 维的子空间，即这些向量是线性相关的。这直接导致了模型参数的解不再唯一，或在近似情况下表现出极高的方差和不稳定性。

1. 共线性的结构性定义

定义1

给定设计矩阵 $X \in R^{n \times p}$ ，其列向量为解释变量 ${X_{1}, X_{2}, \dots, X_{p}}$ 。若存在一个非零向量 $α = (α_{1}, \dots, α_{p})^{⊤} \in R^{p}$ 使得 $X α = 0$ 则称矩阵 $X$ 的列向量存在**（完全）共线性**。

这一定义等价于说，列向量集合 ${X_{1}, \dots, X_{p}}$ 是线性相关 (Linearly Dependent) 的。其直接的代数后果是，矩阵 $X$ 的秩小于其列数，即 $rank (X) < p$

2. 共线性引发的结构性问题

2.1 参数的不可辨识性 (Unidentifiability)

在线性回归模型 $Y = Xβ + ε$ 中，其普通最小二乘 (OLS) 估计量由正规方程 $X^{⊤} X \hat{β} = X^{⊤} Y$ 给出。若 $X^{⊤} X$ 可逆，则 $\hat{β} = (X^{⊤} X)^{- 1} X^{⊤} Y$ 当 $X$ 存在共线性时， $rank (X) < p$ ，则 $rank (X^{⊤} X) = rank (X) < p$ 此时矩阵 $X^{⊤} X$ 是奇异的 (Singular)，即不可逆 (Non-invertible)。这意味着 $(X^{⊤} X)^{- 1}$ 不存在。因此，参数 $β$ 的解不再是唯一的。任意两个解 $β_{1}$ 和 $β_{2}$ 都满足 $X β_{1} = X β_{2}$ ，其差向量 $β_{1} - β_{2}$ 位于 $X$ 的零空间 (Null Space) 中。解的集合构成了一个仿射子空间 (Affine Subspace)。

2.2 估计量的高方差 (High Variance)

当共线性不是完全的，而是近似共线性 (Near Collinearity) 时，列向量近似线性相关。在代数结构上，这表现为矩阵 $X^{⊤} X$ 的最小特征值 $λ_{m i n}$ 非常接近于零： $λ_{m i n} (X^{⊤} X) \approx 0$ 此时 $X^{⊤} X$ 虽然可逆，但其逆矩阵的谱范数会极大。考虑到OLS估计量的方差-协方差矩阵为 $Var (\hat{β}) = σ^{2} (X^{⊤} X)^{- 1}$ 由于 $(X^{⊤} X)^{- 1}$ 的特征值为 $1/ λ_{i} (X^{⊤} X)$ ，其最大特征值 $1/ λ_{m i n}$ 会非常大，导致 $\hat{β}$ 的某些线性组合的方差极大。

2.3 估计的不稳定性 (Instability)

近似共线性也意味着矩阵 $X^{⊤} X$ 是病态的 (Ill-conditioned)，即其条件数 $κ (X^{⊤} X) = \frac{λ _{m a x} ( X ^{⊤} X )}{λ _{m i n} ( X ^{⊤} X )} ≫ 1$ 这使得求解过程对数据 $X$ 或 $Y$ 的微小扰动极为敏感。任何小的扰动 $Δ X$ 或 $Δ Y$ 都会通过范数巨大的逆矩阵 $(X^{⊤} X)^{- 1}$ 被放大，从而导致估计向量 $\hat{β}$ 发生剧烈变化。

3. 解决方案的代数思想

3.1 移除相关方向 (Variable Selection)

此方法旨在通过剔除某些列向量，使得留下的列向量集合是线性无关的，即恢复设计矩阵的满秩性质。代数上，即找到满足 $X α = 0$ 的 $α$ ，并移除其非零分量对应的列。

3.2 正则化 (Regularization)

以岭回归 (Ridge Regression) 为例，其目标函数为 $min_{β} ∣∣ Y - Xβ ∣ ∣_{2}^{2} + λ ∣∣ β ∣ ∣_{2}^{2}$ 。其解为 $\hat{β}_{r i d g e} = (X^{⊤} X + λ I)^{- 1} X^{⊤} Y$ 从结构上看，通过给 $X^{⊤} X$ 加上一个对角矩阵 $λ I$ ，使得新的矩阵 $(X^{⊤} X + λ I)$ 的最小特征值 $λ_{m i n} (X^{⊤} X + λ I) = λ_{m i n} (X^{⊤} X) + λ \geq λ > 0$ 从而保证了矩阵的可逆性并改善了其条件数，使得求解过程变得稳定。

3.3 变量重构 (Variable Reconstruction)

此方法旨在保持原有信息的同时，重构一组新的解释变量，使它们在代数上是正交的 (Orthogonal)。主成分分析 (PCA) 是典型方法，它通过对 $X^{⊤} X$ 进行特征分解，找到一组正交基来表示原有的列空间，从根本上消除了变量间的线性相关性。

为学日益，为道日损

探索

数据共线性问题

数据共线性 (Collinearity) 问题

1. 共线性的结构性定义

2. 共线性引发的结构性问题

2.1 参数的不可辨识性 (Unidentifiability)

2.2 估计量的高方差 (High Variance)

2.3 估计的不稳定性 (Instability)

3. 解决方案的代数思想

3.1 移除相关方向 (Variable Selection)

3.2 正则化 (Regularization)

3.3 变量重构 (Variable Reconstruction)

快捷入口

目录