机器学习----线性回归

第一关：简单线性回归与多元线性回归

1、下面属于多元线性回归的是？
A、
求得正方形面积与对角线之间的关系。
B、
建立股票价格与成交量、换手率等因素之间的线性关系。
C、
建立西瓜价格与西瓜大小、西瓜产地、甜度等因素之间的线性关系。
D、
建立西瓜书销量与时间之间的线性关系。
2、若线性回归方程得到多个解，下面哪些方法能够解决此问题？
A、
获取更多的训练样本
B、
选取样本有效的特征，使样本数量大于特征数
C、
加入正则化项
D、
不考虑偏置项b
3、下列关于线性回归分析中的残差（预测值减去真实值）说法正确的是？
A、
残差均值总是为零
B、
残差均值总是小于零
C、
残差均值总是大于零
D、
以上说法都不对

答案：1.BC 2.ABC 3.A

第2关：线性回归的正规方程解

#encoding=utf8 
import numpy as np
def mse_score(y_predict,y_test):
    '''
    input:y_predict(ndarray):预测值
          y_test(ndarray):真实值
    ouput:mse(float):mse损失函数值
    '''
    #********* Begin *********#
    mse=np.mean((y_predict-y_test)/2)
    #********* End *********#
    return mse
class LinearRegression :
    def __init__(self):
        '''初始化线性回归模型'''
        self.theta = None
    def fit_normal(self,train_data,train_label):
        '''
        input:train_data(ndarray):训练样本
              train_label(ndarray):训练标签
        '''
        #********* Begin *********#
        x = np.hstack([np.ones((len(train_data),1)),train_data])
        self.theta =np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)
        #********* End *********#
        return self.theta
    def predict(self,test_data):
        '''
        input:test_data(ndarray):测试样本
        '''
        #********* Begin *********#
        x = np.hstack([np.ones((len(test_data),1)),test_data])
        return x.dot(self.theta)
        #********* End *********#

第3关：衡量线性回归的性能指标：

#encoding=utf8 
import numpy as np
#mse
def mse_score(y_predict,y_test):
    mse = np.mean((y_predict-y_test)**2)
    return mse
#r2
def r2_score(y_predict,y_test):
    '''
    input:y_predict(ndarray):预测值
          y_test(ndarray):真实值
    output:r2(float):r2值
    '''
    #********* Begin *********#
    r2=1-mse_score(y_predict,y_test)/np.var(y_test)
    #********* End *********#
    return r2
class LinearRegression :
    def __init__(self):
        '''初始化线性回归模型'''
        self.theta = None
    def fit_normal(self,train_data,train_label):
        '''
        input:train_data(ndarray):训练样本
              train_label(ndarray):训练标签
        '''
        #********* Begin *********#
        x=np.hstack([np.ones((len(train_data),1)),train_data])
        self.theta=np.linalg.inv(x.T.dot(x)).dot(x.T).dot(train_label)  
        #********* End *********#
        return self
    def predict(self,test_data):
        '''
        input:test_data(ndarray):测试样本
        '''
        #********* Begin *********#
        x=np.hstack([np.ones((len(test_data),1)),test_data])
        return x.dot(self.theta)
        #********* End *********#

第4关：scikit-learn线性回归实践 - 波斯顿房价预测：

#encoding=utf8
#********* Begin *********#
from sklearn.linear_model import LinearRegression
import pandas as pd
train_data = pd.read_csv('./step3/train_data.csv')
train_label = pd.read_csv('./step3/train_label.csv')
train_label = train_label['target']
test_data = pd.read_csv('./step3/test_data.csv')
lr = LinearRegression()
lr.fit(train_data, train_label)
predict = lr.predict(test_data)
df = pd.DataFrame({'result': predict})
df.to_csv('./step3/result.csv', index = False)
#********* End *********#