python基於numpy的線性回歸
本文實例為大傢分享瞭python基於numpy的線性回歸的具體代碼,供大傢參考,具體內容如下
class類中包含:
創建數據
參數初始化
計算輸出值,損失值,dw,db
預測函數
交叉驗證函數
其中用到的數據集為sklearn中的糖尿病數據集
具體代碼如下:
import numpy as np from sklearn.utils import shuffle from sklearn.datasets import load_diabetes import matplotlib.pyplot as plt #基於numpy實現一個簡單的線性回歸模型 #用class進行簡單封裝 class lr_model(): def __init__(self): pass # diabetes 是一個關於糖尿病的數據集, 該數據集包括442個病人的生理數據及一年以後的病情發展情況。 # 數據集中的特征值總共10項, 如下: # 年齡 # 性別 # 體質指數 # 血壓 # s1,s2,s3,s4,s4,s6 (六種血清的化驗數據) # 但請註意,以上的數據是經過特殊處理, 10個數據中的每個都做瞭均值中心化處理,然後又用標準差乘以個體數量調整瞭數值范圍。驗證就會發現任何一列的所有數值平方和為1. def prepare_data(self): data = load_diabetes().data target = load_diabetes().target #數據打亂 X, y = shuffle(data, target, random_state=42) X = X.astype(np.float32) y = y.reshape((-1, 1))#標簽變成列向量形式 data = np.concatenate((X, y), axis=1)#橫向變為數據標簽的行向量 return data #初始化參數,權值與偏執初始化 def initialize_params(self, dims): w = np.zeros((dims, 1)) b = 0 return w, b def linear_loss(self, X, y, w, b): num_train = X.shape[0]#行數訓練數目 num_feature = X.shape[1]#列數表示特征值數目 y_hat = np.dot(X, w) + b#y=w*x+b loss = np.sum((y_hat - y) ** 2) / num_train#計算損失函數 dw = np.dot(X.T, (y_hat - y)) / num_train#計算梯度 db = np.sum((y_hat - y)) / num_train return y_hat, loss, dw, db def linear_train(self, X, y, learning_rate, epochs): w, b = self.initialize_params(X.shape[1])#參數初始化 loss_list = [] for i in range(1, epochs): y_hat, loss, dw, db = self.linear_loss(X, y, w, b) w += -learning_rate * dw b += -learning_rate * db#參數更新 loss_list.append(loss) if i % 10000 == 0:#每到一定輪數進行打印輸出 print('epoch %d loss %f' % (i, loss)) #參數保存 params = { 'w': w, 'b': b } grads = { 'dw': dw, 'db': db } return loss, params, grads,loss_list #預測函數 def predict(self, X, params): w = params['w'] b = params['b'] y_pred = np.dot(X, w) + b return y_pred #隨機交叉驗證函數,如何選測試集、訓練集 def linear_cross_validation(self, data, k, randomize=True): if randomize: data = list(data) shuffle(data) slices = [data[i::k] for i in range(k)]#k為step for i in range(k): validation = slices[i] train = [data for s in slices if s is not validation for data in s]#將不為測試集的數據作為訓練集 train = np.array(train) validation = np.array(validation) yield train, validation#yield 變為可迭代,每次返回 if __name__ == '__main__': lr = lr_model() data = lr.prepare_data() for train, validation in lr.linear_cross_validation(data, 5): X_train = train[:, :10] y_train = train[:, -1].reshape((-1, 1)) X_valid = validation[:, :10] y_valid = validation[:, -1].reshape((-1, 1)) loss5 = [] loss, params, grads,loss_list = lr.linear_train(X_train, y_train, 0.001, 100000) plt.plot(loss_list, color='blue') plt.xlabel('epochs') plt.ylabel('loss') plt.show() loss5.append(loss) score = np.mean(loss5) print('five kold cross validation score is', score)#5類數據的測試分數 y_pred = lr.predict(X_valid, params) plt.scatter(range(X_valid.shape[0]),y_valid) plt.scatter(range(X_valid.shape[0]),y_pred,color='red') plt.xlabel('x') plt.ylabel('y') plt.show() valid_score = np.sum(((y_pred - y_valid) ** 2)) / len(X_valid) print('valid score is', valid_score)
結果如下:
以上就是本文的全部內容,希望對大傢的學習有所幫助,也希望大傢多多支持WalkonNet。
推薦閱讀:
- 基於numpy實現邏輯回歸
- Python之Sklearn使用入門教程
- Python集成學習之Blending算法詳解
- Python中LSTM回歸神經網絡時間序列預測詳情
- python機器學習樸素貝葉斯算法及模型的選擇和調優詳解