数据共线性 (Collinearity) 问题
Tip
在一般的线性模型中,共线性问题并非一个统计问题,而是一个纯粹的代数结构问题 (Algebraic Structure Issue)。其本质在于,模型中的解释变量所构成的列向量集合,未能在一个维向量空间中张成一个维的子空间,即这些向量是线性相关的。这直接导致了模型参数的解不再唯一,或在近似情况下表现出极高的方差和不稳定性。
1. 共线性的结构性定义
定义1
给定设计矩阵,其列向量为解释变量。若存在一个非零向量使得 则称矩阵的列向量存在**(完全)共线性**。
这一定义等价于说,列向量集合是线性相关 (Linearly Dependent) 的。其直接的代数后果是,矩阵的秩小于其列数,即
2. 共线性引发的结构性问题
2.1 参数的不可辨识性 (Unidentifiability)
在线性回归模型中,其普通最小二乘 (OLS) 估计量由正规方程给出。若可逆,则 当存在共线性时,,则 此时矩阵是奇异的 (Singular),即不可逆 (Non-invertible)。这意味着不存在。 因此,参数的解不再是唯一的。任意两个解和都满足,其差向量位于的零空间 (Null Space) 中。解的集合构成了一个仿射子空间 (Affine Subspace)。
2.2 估计量的高方差 (High Variance)
当共线性不是完全的,而是近似共线性 (Near Collinearity) 时,列向量近似线性相关。在代数结构上,这表现为矩阵的最小特征值非常接近于零: 此时虽然可逆,但其逆矩阵的谱范数会极大。考虑到OLS估计量的方差-协方差矩阵为 由于的特征值为,其最大特征值会非常大,导致的某些线性组合的方差极大。
2.3 估计的不稳定性 (Instability)
近似共线性也意味着矩阵是病态的 (Ill-conditioned),即其条件数 这使得求解过程对数据或的微小扰动极为敏感。任何小的扰动或都会通过范数巨大的逆矩阵被放大,从而导致估计向量发生剧烈变化。
3. 解决方案的代数思想
3.1 移除相关方向 (Variable Selection)
此方法旨在通过剔除某些列向量,使得留下的列向量集合是线性无关的,即恢复设计矩阵的满秩性质。 代数上,即找到满足的,并移除其非零分量对应的列。
3.2 正则化 (Regularization)
以岭回归 (Ridge Regression) 为例,其目标函数为。其解为 从结构上看,通过给加上一个对角矩阵,使得新的矩阵的最小特征值 从而保证了矩阵的可逆性并改善了其条件数,使得求解过程变得稳定。
3.3 变量重构 (Variable Reconstruction)
此方法旨在保持原有信息的同时,重构一组新的解释变量,使它们在代数上是正交的 (Orthogonal)。 主成分分析 (PCA) 是典型方法,它通过对进行特征分解,找到一组正交基来表示原有的列空间,从根本上消除了变量间的线性相关性。