机器学习与线代的爱恨情仇
线性代数
- 内积
[ x 1 x 2 ⋯ x n ] [ y 1 y 2 ⋮ y n ] = ∑ i = 1 n x i y i \left[\begin{matrix} x_1&x_2&\cdots&x_n\end{matrix}\right]\left [\begin{matrix} y_1\\y_2\\\vdots\\y_n\end{matrix}\right]=\sum\limits_{i=1}^nx_iy_i [x1x2⋯xn]⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤=i=1∑nxiyi
- 相似矩阵
两个n阶方阵A和B为相似矩阵,当且仅当存在一个n阶可逆矩阵P使得:
P − 1 A P = B P^{-1}AP=B P−1AP=B
方阵P称为A和B之间的相似变换矩阵,方阵A相似B记做:A~B
- Jordan标准型
对任意一n阶矩阵A,必存在n阶可逆矩阵P,使得:
P − 1 A P = [ J 1 J 2 ⋱ J n ] = J P^{-1}AP=\left[\begin{matrix}J_1\\&J_2\\&&\ddots\\&&&J_n \end{matrix}\right]=J P−1AP=⎣⎢⎢⎡J1J2⋱Jn⎦⎥⎥⎤=J,其中每一个对角块都是Jordan块:
J i = [ λ i 1 λ i 1 λ i ⋱ ⋱ 1 λ i ] J_i=\left[\begin{matrix}\lambda_i &1\\&\lambda_i&1\\&&\lambda_i&\ddots\\&&&\ddots&1\\&&&&\lambda_i\end{matrix}\right] Ji=⎣⎢⎢⎢⎢⎡λi1λi1λi⋱⋱1λi⎦⎥⎥⎥⎥⎤
,对角线上同为 λ i \lambda_i λi, λ i \lambda_i λi的上面都有一个1,其余元素都是0
- 相似对角化
矩阵 A n ∗ n A_{n*n} An∗n可相似对角化的条件为A有n个线性无关的特征向量;可以理解为每一个特征值的几何重数等于代数重数
- 矩阵的等价、相似与合同
矩阵等价:如果两个矩阵满足QAP=B,其中Q与P都为可逆矩阵则A与B等价
矩阵相似: P − 1 A P = B P^{-1}AP=B P−1AP=B,则A与B相似
矩阵合同:若存在可逆矩阵C,使得 C T A C = B C^{T}AC=B CTAC=B则称方阵A与B合同,记做A=B
- 二次型
n阶实对称阵A的二次型定义为 f = x T A x f=x^TAx f=xTAx
对称阵A叫做二次型 f f f的矩阵, f f f叫做对称阵的二次型
给定一个二次型就能唯一地确定一个对称阵;反之任给一个对称阵也能唯一确定一个二次型
- 正定、半正定矩阵
对于n阶对称方阵A
正定矩阵:二次型 x T A x > 0 x^TAx>0 xTAx>0, ∀ x ≠ 0 \forall x\neq0 ∀x=0 ( 对 称 方 阵 A 所 有 特 征 值 均 为 正 数 ) \big(对称方阵A所有特征值均为正数\big) (对称方阵A所有特征值均为正数)
半正定矩阵:二次型 x T A x ≥ 0 x^TAx\geq0 xTAx≥0, ∀ x ≠ 0 \forall x\neq0 ∀x=0 ( 对 称 方 阵 A 的 所 有 特 征 值 均 为 非 负 数 ) \big(对称方阵A的所有特征值均为非负数\big) (对称方阵A的所有特征值均为非负数)
- 向量的范数
x ∈ R n x\in R^n x∈Rn
ι 1 \iota_1 ι1范数 ∥ x ∥ 1 = ∑ j = 1 n ∣ x j ∣ \lVert x \rVert_1=\sum\limits_{j=1}^n\lvert x_j\rvert ∥x∥1=j=1∑n∣xj∣
ι 2 \iota_2 ι2范数 ∥ x ∥ 2 = ( x 1 2 + x 2 2 + ⋯ + x n 2 ) 1 2 \lVert x \rVert_2=\big(x_1^2+x_2^2+\cdots+x_n^2\big)^{\frac{1}{2}} ∥x∥2=(x12+x22+⋯+xn2)21
ι ∞ \iota_\infty ι∞范数 ∥ x ∥ ∞ = m a x ( ∣ x 1 ∣ , ⋯ , ∣ x n ∣ ) \lVert x \rVert_\infty=max\big(\lvert x_1 \rvert,\cdots,\lvert x_n\rvert\big) ∥x∥∞=max(∣x1∣,⋯,∣xn∣)无穷范数
- 矩阵的范数
- 谱范数:
∥ A ∥ 2 = δ m a x = λ m a x \lVert A \rVert_2=\delta_{max}=\sqrt{\lambda_{max}} ∥A∥2=δmax=λmax, λ m a x \lambda_{max} λmax位 A T A A^TA ATA的最大特征值, δ m a x \delta_{max} δmax为方阵A最大奇异值- p范数
ι p \iota_p ιp范数 ∥ A ∥ p = max x ≠ 0 ∥ A x ∥ p ∥ x ∥ p \lVert A \rVert_p=\max\limits_{x\neq0}\frac{\lVert Ax \rVert_p}{\lVert x \rVert_p} ∥A∥p=x=0max∥x∥p∥Ax∥p
- 最小二乘法
- 目标
SSE(sum squares of error): S S E = ∑ i = 1 m ( y i − y ^ i ) 2 SSE=\sum\limits_{i=1}^m\big(y_i-\hat{y}_i\big)^2 SSE=i=1∑m(yi−y^i)2- 特点
最小二乘法是残差满足正态分布情况下的最大似然估计