分类问题

一:什么是分类问题?

1. 概念

根据已知样本的某些特征,判断一个新样本属于哪一个已知样本类。

2. 基本框架

其中 x 为样本的特征,即属性。

3. 案例

(1)邮件分类

(2)任务

  • 输入:电子邮件
  • 输出:此邮件为垃圾邮件 / 普通邮件

(3)流程

  1. 标注样本邮件为垃圾/普通邮件(人)
  2. 获取批量的样本邮件及其标签,学习其特征(计算机)
  3. 针对新的邮件,自动判断其类别(计算机)

(4)样本特征

  • 发件人包含字符:% & * …
  • 正文包含:现金、领取等
  • 其他特征

(5)处理流程

使得每一个特征例如:包含字符 %: x1=0 或者 x1=1 ;

其次根据样本的特征值,获得 y = 0;

由此判断出是否为垃圾邮件。

二:解决分类问题的常用算法

1. 逻辑回归

  • 建立逻辑回归方程,判断样本属于哪一个样本类。

2. KNN邻近模型

  • 判断样本与周边样本点之间的距离,来决定样本属于哪个样本类。

3. 决策树

  • 通过大量的问题,来建立许多的分支,来逐步判断样本属于哪个样本类。

4. 神经网络

  • 基于一些输入,自动会输出一些信号,用来判断样本属于哪个样本类。

三:常见的分类问题

  • 垃圾邮件检测

  • 图像分类

  • 数字识别

  • 考试通过测试

四:分类任务与回归任务的区别

1. 差异

  • 分类任务
    • 分类目标:判断类别
    • 模型输出:非连续型标签
  • 回归任务
    • 回归目标:建立函数关系
    • 模型输出:连续型数值

2. 判断

  • 分类问题

    • 根据房屋信息预测其是否受欢迎
    • 猫狗图像识别
    • 股价涨跌预测
  • 回归问题

    • 根据房屋信息预测房屋价格
    • 股价预测