传统机器学习模型

监督学习模型

线性模型监督学习

  • 线性回归:预测连续值的基础模型
  • 逻辑回归:解决二分类问题
  • 优点:简单直观,计算效率高
  • 缺点:只能处理线性关系

决策树监督学习

  • 基于特征进行条件判断的树形结构
  • 支持分类和回归任务
  • 优点:可解释性强,易于理解
  • 缺点:容易过拟合

支持向量机(SVM)监督学习

  • 寻找最优分类超平面
  • 通过核函数处理非线性问题
  • 优点:泛化能力强
  • 缺点:计算复杂度高

集成学习模型

随机森林监督学习

  • 多个决策树的组合
  • 通过投票或平均获得结果
  • 优点:抗过拟合,准确率高
  • 缺点:训练时间长

梯度提升树(GBDT/XGBoost)监督学习

  • 迭代训练弱学习器
  • 每次针对残差进行优化
  • 优点:预测精度高
  • 缺点:对异常值敏感

无监督学习模型

K-means聚类无监督学习

  • 将数据分为K个簇
  • 基于距离度量进行聚类
  • 优点:简单高效
  • 缺点:需要预先指定簇数

主成分分析(PCA)无监督学习

  • 降维算法的代表
  • 保留数据主要特征
  • 优点:减少数据维度
  • 缺点:可能损失信息

模型对比

模型类型 适用场景 优势 劣势 计算复杂度
线性模型 简单预测任务 简单直观 只能处理线性关系
决策树 分类和回归 可解释性强 容易过拟合
SVM 小样本分类 泛化能力强 计算复杂
随机森林 通用任务 稳定性好 训练慢 中高
GBDT 结构化数据 精度高 参数敏感