核心逻辑链条可以总结为一句话:
从原始数据 → 清洗(质量)→ 变换(尺度、分布)→ 特征表达(结构)→ 假设检验(可信性)→ 模型指标(可比较性)。
1. 标准化与数据变换(Normalization & Transformation)
核心思想
使变量具有统一尺度、形态可控,使模型更稳定、更易训练。
背后模型依赖
- 线性模型依赖尺度一致性(避免某特征权重过大)
- 距离类算法(kNN、k-means、DBSCAN)强依赖尺度
- 深度网络训练依赖稳定梯度分布
常用方法
- Z-score 标准化
- Min-max 缩放
- Box-Cox / Yeo-Johnson 变换
- 对数 / 幂变换
- 分位数归一化(常见于非高斯分布)
2. 插值
核心思想
在离散采样点之间重建连续函数,使模型能利用完整连续信息。
典型形态
- 多项式插值
- 样条插值(Cubic Spline)
应用场景
- 时间序列缺失点填补
- 实验数据光滑化
- 数据补点
3. 假设检验(Hypothesis Testing)
核心思想
判断数据中观察到的模式是否具有统计意义,而非随机波动。
典型内容
- t 检验 / Mann–Whitney
- χ² 检验
- KS 检验(判断分布形状)
- A/B test 框架
- p-value、置信区间解释
为什么重要
- 作为“是否能用某方法”的依据(如是否满足正态分布假设)。
4. 熵权法(Entropy Weight Method)
核心思想
用信息熵衡量变量“不确定性—有效信息量”,从而给特征自动赋权。
本质
- 方差大 → 信息量大 → 权重高
- 方差小 → 区分度弱 → 权重低
5. 数据分布拟合(Distribution Fitting)
核心思想
用概率分布刻画数据的生成机制 → 为后续统计推断、模拟、极值分析等铺路。
方法
- 拟合参数分布(正态、对数正态、Gamma、Weibull)
- 使用 AIC/BIC 选择模型
- 非参数分布(核密度估计 KDE)
联系
- 为假设检验提供分布
- 为蒙特卡洛模拟提供随机源
- 为极值建模(GPD, EVT)奠定基础
6. 数据共线性(Multicollinearity)
核心思想
当多个特征高度相关时 → 线性模型的估计不稳定、方差爆炸。
典型方法
- VIF(方差膨胀因子)
- Condition Number
- 岭回归 / Lasso 缓解共线性
- PCA 消除冗余维度
为什么重要
你在建模时所有“回归”“拟合”相关模型,都严重依赖低共线性。
7. 数据预处理(Data Cleaning & Preparation)
核心思想
解决“不干净的数据”,保证模型输入正确、分布稳定。
步骤结构化表达
- 缺失值处理(插值、建模、删除)
- 异常值识别(z-score、IQR、LOF)
- 一致化(单位、编码、格式)
- 分箱、哑变量、时间特征拆分
- 数据泄漏检查
联系
这是整个建模管线中最关键、最消耗时间的部分。
8. 算法指标(Model Metrics)
核心思想
不同问题用不同评价准则,用指标衡量模型是否“好”。
分类任务
- Accuracy
- Precision/Recall/F1
- ROC-AUC
- PR-AUC
回归任务
- RMSE
- MAE
- R²
无监督任务
- 轮廓系数(Silhouette)
- Calinski-Harabasz
- Dunn index
为什么重要
你必须通过指标指导你选择模型、调参、最终比较方案。
9. 特征选择与相关性分析(Feature Selection & Correlation Analysis)
核心思想
减少冗余变量、提升模型泛化能力。
相关性分析
- Pearson / Spearman
- MI(互信息)
- Kendall τ
- 皮尔逊相关热图
特征选择三类方法
- Filter:相关性、方差、卡方、MI
- Wrapper:RFE、前向/后向选择
- Embedded:Lasso、树模型特征重要性
联系
共线性检测 → 特征选择 → 变量标准化 三者构成“建模前特征工程”的完整闭环。
整个数据处理体系的核心结构图
原始数据
↓ 清洗(质量)
↓ 预处理(缺失、异常、编码)
↓ 变换(标准化、归一化、分布变换)
↓ 特征结构化(插值、分箱、构造变量)
↓ 统计检验(是否可信、分布是否合理)
↓ 特征选择(相关性、VIF、MI)
↓ 数据分布建模(用于模拟与假设检验)
↓ 输出建模(模型输入接口)
↓ 指标衡量(反馈闭环)