一:什么是回归分析?(Regression Analysis)

定义

回归分析:根据数据,确定两种或两种以上变量间相互依赖的定量关系

函数表达式:

  • 回归
    • 变量数
      • 一元回归:y = f (x)
      • 多元回归:y= f (x1,x2···xn)
    • 函数关系
      • 线性回归:y = ax + b
      • 非线性回归:y = ax2 + bx + c

定位:机器学习中的监督学习

实例

  • 百万人口医生数量预测区域人均寿命
  • 年龄预测身高
  • 住宅面积预测售价

二:线性回归

线性回归:回归分析中,变量与因变量存在线性关系

函数表达式:y = ax + b

举例:

  • 线性回归:距离 = 速度 × 时间+初始距离
  • 非线性回归:距离=加速度×时间的平方+初始距离

三:回归问题求解

求解过程

问题:面积110平米售价150万是否值得投资?

面积(A) 售价(P)
79 402654
92 948562
108 1045687
110 ???
118 1578142
  1. 确定 P、A 间的定量关系

    P = f (A)

    线性模型:y=ax+b

  2. 根据关系预测合理价格

    P(A=110)= f (110)

  3. 做出判断

    若150w >> P,则不值得投资。

问题核心

线性模型:y=ax+b,寻找合理的a和b;

假设x为变量,y为对应的结果,y'为模型输出结果,

目标变为:y'尽可能接近y(m为样本数量)

平方:消除做差产生负数情况;

系数:方便求导运算

损失函数,所得值期望越小越好;

梯度下降法

寻找极小值的一种方法。

通常向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索,直到在极小点收敛。

举例

四:求解步骤

  1. 选择回归模型
  2. 生成损失函数
  3. 使用梯度下降或者其他方式求解,最小化损失函数的模型参数
  4. 使用模型预测合理房价,根据预测结果做出判断