task02 datawhale第二十三期集成学习基本回归模型原理
1.导论
- 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表
达形式为y =w’x+e,e为误差服从均值为0的正态分布。 - 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。首先我们先从最基础的简单线性回归了解开始。
2.一元线性回归
- 最⼴为⼈知的线性回归模型——将数据拟合成⼀条直线。 直线拟合的模型⽅程为y = ax + b, 其中 a 是直线的斜率, b是直接的截距。
假设我们有一组数据
我们现在有这样一个任务:构造一个线性函数,对这个数据进行拟合。

- 什么叫拟合呢? 就是当我们像函数中输⼊⼀个x,就可以对应计算出⼀个 函数的输出值y ,然后⽤这个 y 去预测对应的真实值y。
预测的越准确,就认为拟合的效果越好。
2.1找到最好的拟合函数
- 这样的函数我们能够构造出⽆数个,有的预测值⽐较接近真实值,有的 值和真实值相差较多。
- 现在我们的⽬标是: 找到这个对y值预测效果最好的函数。
- 要找到最好的函数,我们第⼀步需要做的是什么呢?
- 先要对所谓的最好有⼀个定义,什么才叫做最好呢?
定义:预测函数的预测值 y 与真实值y的整体误差最⼩
现在我们的⽬标是: 找到这个对y值预测效果最好的函数。
那么如何找到这个最好的函数呢? 对于这个函数来讲,就是找到合
适的 w0 , w1 的值 , w0 , w1 称为模型参数。 - 单纯说整体误差最⼩还是没有办法进⾏精确的度量,因此我们需要有 ⼀个公式,⽤来度量预测值和真实值之间的整体误差到底是多少。
- 我们⽤来度量预测值和真实值之间的整体误差的函数, 就叫做损失函数。
- 单变量线性回归算法的损失函数是:

即求J(w)的最小值。
2.2求解损失函数
- 在机器学习中,常看到线性回归求解损失函数的方法有最⼩⼆乘法和梯度下降法。在这章我们只的介绍最小二乘法求解线性回归损失函数。
最小二乘法原理推导过程:


注意点:
- 因为在公示的计算过程中,需要计算XTX的逆矩阵 ⽽逆矩阵存在的充分必要条件是特征矩阵不存在多重共线性。
所以最⼩⼆乘法应⽤的前提是特征之间不能存在多重共线性。假设矩阵的逆是存在的,此时我们的w就是我们参数的最优解。
求解出这个参数向量,我们就解出了我们的Xw,也就能够计算出我们的预测值 y 了。
3.回归模型的评估方法
- 回归类与分类型算法的模型评估其实是相似的法则——找真实标签和预测值的差异。只不过在分类型算法中,这个差异只有⼀种⻆度来评判,那就是是否预测到了正确的分类⽽在我们的回归类算法中,我们有两种不同的⻆度来看待回归的效果:
- 第⼀,我们是否预测到了正确的数值。
- 第⼆,我们是否拟合到了⾜够的信息。
这两种⻆度,分别对应着不同的模型评估指标。
我们经常使用方差来很亮数据集上的信息量。如果方差越大,代表数据上的信息量越多,而这个信息量不仅包括了数值的大小,还包括了我们希望模型捕捉的那些规律。为了衡量模型对数据上的信息量的捕捉,我们来定义了R^2来帮助我们:

其中y是真实标签,y^是我们预测的结果,y ~是我们的均值,y-y-除以样本量m就是我们的方差。方差的本质是任意一个y值与均值的差异,差异越大,这些值所带来的信息越多,在R2中,分钟是真实和预测值只差的差值,也就是我们的模型没有捕获到的信息总量,分母是真实标签所带的信息量,所以其衡量的是1.我们的模型没有捕获到的信息量占真实标签所带的信息量的比例,所以R2越接近1越好。
多项式线性回归
- 我们最常使⽤的线性是指“变量之间的线性关系(linear relationship)”,它表示两个变量之间的关系可以展示为⼀条直线。
即可以使⽤⽅程 y = ax + b 来进⾏拟合。

- 像三⻆函数(如sin(x)),⾼次函数(y = ax^3 + b, (a ≠ 0)),指数函数 (y =
e^x)等等图像不为直线的函数所对应的⾃变量和因变量之间是⾮线性关系(non-linear relationship)。 - y = ax+ b 也因此被称为线性⽅程或线性函数(linear function) ⽽三⻆函数,⾼次函数等也因此被称为⾮线性函数(non-linear function)。
- 我们的数据千差万别,有的数据中的特征可能和⽬标标签存在线性关系, 当然也⼀定会有很多特征和标签之间存在的是某种⾮线性关系。
最简单的判别⽅法就是,如果数据集在线性回归或者逻辑回归这种线性模 型⽅⾯能够得到很好的效果,则说明数据之间很可能线性相关的。

- 当然也有可能存在⾮线性的数据集,特征和标签之间存在的是某种更复 杂的⾮线性关系,如果使⽤线性回归来进⾏分析,结果很⼤概率会不太 好。
那么对于这种数据集来说,线性回归就没有办法使⽤了吗?
多项式回归PolynomialFeatures
当线性回归的模型太简单导致⽋拟合时,我们就可以通过增加特征多项式来
让线性回归模型更好的拟合数据。
例如有两个特征x1, x2 , 可以增加两个特征的乘积 x1*x2作为新的特征
x3,也可以增加x1^2
, x2^2 作为新的特征x4, x5,这样⼀来模型的复杂度就会⼏何级别上升,也可以⽤来拟合很多复杂的数据关系了!