核心逻辑链条可以总结为一句话：

从原始数据 → 清洗（质量）→ 变换（尺度、分布）→ 特征表达（结构）→ 假设检验（可信性）→ 模型指标（可比较性）。

1. 标准化与数据变换（Normalization & Transformation）

核心思想

使变量具有统一尺度、形态可控，使模型更稳定、更易训练。

背后模型依赖

线性模型依赖尺度一致性（避免某特征权重过大）
距离类算法（kNN、k-means、DBSCAN）强依赖尺度
深度网络训练依赖稳定梯度分布

常用方法

Z-score 标准化
Min-max 缩放
Box-Cox / Yeo-Johnson 变换
对数 / 幂变换
分位数归一化（常见于非高斯分布）

2. 插值

核心思想

在离散采样点之间重建连续函数，使模型能利用完整连续信息。

典型形态

多项式插值
样条插值（Cubic Spline）

应用场景

时间序列缺失点填补
实验数据光滑化
数据补点

3. 假设检验（Hypothesis Testing）

核心思想

判断数据中观察到的模式是否具有统计意义，而非随机波动。

典型内容

t 检验 / Mann–Whitney
χ² 检验
KS 检验（判断分布形状）
A/B test 框架
p-value、置信区间解释

为什么重要

作为“是否能用某方法”的依据（如是否满足正态分布假设）。

4. 熵权法（Entropy Weight Method）

核心思想

用信息熵衡量变量“不确定性—有效信息量”，从而给特征自动赋权。

本质

方差大 → 信息量大 → 权重高
方差小 → 区分度弱 → 权重低

5. 数据分布拟合（Distribution Fitting）

核心思想

用概率分布刻画数据的生成机制 → 为后续统计推断、模拟、极值分析等铺路。

方法

拟合参数分布（正态、对数正态、Gamma、Weibull）
使用 AIC/BIC 选择模型
非参数分布（核密度估计 KDE）

联系

为假设检验提供分布
为蒙特卡洛模拟提供随机源
为极值建模（GPD, EVT）奠定基础

6. 数据共线性（Multicollinearity）

核心思想

当多个特征高度相关时 → 线性模型的估计不稳定、方差爆炸。

典型方法

VIF（方差膨胀因子）
Condition Number
岭回归 / Lasso 缓解共线性
PCA 消除冗余维度

为什么重要

你在建模时所有“回归”“拟合”相关模型，都严重依赖低共线性。

7. 数据预处理（Data Cleaning & Preparation）

核心思想

解决“不干净的数据”，保证模型输入正确、分布稳定。

步骤结构化表达

缺失值处理（插值、建模、删除）
异常值识别（z-score、IQR、LOF）
一致化（单位、编码、格式）
分箱、哑变量、时间特征拆分
数据泄漏检查

联系

这是整个建模管线中最关键、最消耗时间的部分。

8. 算法指标（Model Metrics）

核心思想

不同问题用不同评价准则，用指标衡量模型是否“好”。

分类任务

Accuracy
Precision/Recall/F1
ROC-AUC
PR-AUC

回归任务

RMSE
MAE
R²

无监督任务

轮廓系数（Silhouette）
Calinski-Harabasz
Dunn index

为什么重要

你必须通过指标指导你选择模型、调参、最终比较方案。

9. 特征选择与相关性分析（Feature Selection & Correlation Analysis）

核心思想

减少冗余变量、提升模型泛化能力。

特征选择三类方法

Filter：相关性、方差、卡方、MI
Wrapper：RFE、前向/后向选择
Embedded：Lasso、树模型特征重要性

联系

共线性检测 → 特征选择 → 变量标准化三者构成“建模前特征工程”的完整闭环。

整个数据处理体系的核心结构图

原始数据
   ↓ 清洗（质量）
   ↓ 预处理（缺失、异常、编码）
   ↓ 变换（标准化、归一化、分布变换）
   ↓ 特征结构化（插值、分箱、构造变量）
   ↓ 统计检验（是否可信、分布是否合理）
   ↓ 特征选择（相关性、VIF、MI）
   ↓ 数据分布建模（用于模拟与假设检验）
   ↓ 输出建模（模型输入接口）
   ↓ 指标衡量（反馈闭环）

直接看官方文档：

https://docs.scipy.org/doc/scipy/tutorial/interpolate.html

https://scikit-learn.org/stable/index.html

为学日益，为道日损

探索

数据处理

1. 标准化与数据变换（Normalization & Transformation）

核心思想

背后模型依赖

常用方法

2. 插值

核心思想

典型形态

应用场景

3. 假设检验（Hypothesis Testing）

核心思想

典型内容

为什么重要

4. 熵权法（Entropy Weight Method）

核心思想

本质

5. 数据分布拟合（Distribution Fitting）

核心思想

方法

联系

6. 数据共线性（Multicollinearity）

核心思想

典型方法

为什么重要

7. 数据预处理（Data Cleaning & Preparation）

核心思想

步骤结构化表达

联系

8. 算法指标（Model Metrics）

核心思想

分类任务

回归任务

无监督任务

为什么重要

9. 特征选择与相关性分析（Feature Selection & Correlation Analysis）

核心思想

相关性分析

特征选择三类方法

联系

整个数据处理体系的核心结构图

直接看官方文档：

https://docs.scipy.org/doc/scipy/tutorial/interpolate.html

快捷入口

目录