Python 機器學習之線性回歸詳解分析

為瞭檢驗自己前期對機器學習中線性回歸部分的掌握程度並找出自己在學習中存在的問題,我使用C語言簡單實現瞭單變量簡單線性回歸。

本文對自己使用C語言實現單變量線性回歸過程中遇到的問題和心得做出總結。

線性回歸

線性回歸是機器學習和統計學中最基礎和最廣泛應用的模型,是一種對自變量和因變量之間關系進行建模的回歸分析。

代碼概述

本次實現的線性回歸為單變量的簡單線性回歸,模型中含有兩個參數:變量系數w、偏置q。

訓練數據為自己使用隨機數生成的100個隨機數據並將其保存在數組中。采用批量梯度下降法訓練模型,損失函數使用平方損失函數。

上圖為整個程序的函數調用關系。

下面貼代碼:

#include<stdio.h>
#include<stdlib.h>
#include<math.h>
#include<time.h>
 
double w, q;
int m;
//模型
float Model(float x)
{
	float y;
	y = x * w + q;
	return y;
}
 
//損失函數
double Loss(float *y,float *x)
{
	double L=0;
	//循環參數
	int i, j, k;
	for (i = 0; i < m; i++)
	{
		L += (pow((y[i] - Model(x[i])), 2)) / (2 * m);
	}
	return L;
 
}
 
//梯度下降優化函數
void Gradient_Descent_Optimizer(float *x,float *y,float a)
{
	int j, i;
	double Q = 0, W = 0;
	for (i = 0; i < m; i++)
		W += x[i] * (Model(x[i]) - y[i]);
	W = W / m;
	for (j = 0; j < m; j++)
		Q += Model(x[j]) - y[j];
	Q = Q / m;
	printf("W:%f\nQ:%f\n", W, Q);
	w = w - a * W;
	q = q - a * Q;
}
 
//主函數;訓練過程
int main()
{
	//循環標志
	int i, j;
	//訓練輪次
	int epoch;
	//損失函數
	double L;
	//學習率
	float a;
	float x[100], y[100];
	//隨機數生成
	for (i = 0; i < 100; i++)
	{
		x[i] = 0.1*i;
		y[i] = x[i] * 3 + 5; //+ ((rand() % 11) / 10);
		printf("X:%.2f,Y:%.2f\n", x[i], y[i]);
	}
	//超參數設置
	m = 100;
	a = 0.05;
	epoch = 1000;
	//參數初始化
	w = 2;
	q = 3;
	for (j = 0; j < epoch; j++)
	{
		Gradient_Descent_Optimizer(x, y, a);
		L = Loss(y, x);
		printf("訓練輪次:%d,損失:%f,參數w的值:%lf,參數q的值:%lf\n", j+1, L, w, q);
	}
	printf("最終值:\nw:%lf\nq:%lf\n", w, q);
	system("pause");
}

問題總結

下面對在編寫過程中需要註意的問題進行總結:

1.參數更新

模型中的參數需要同步更新。所有參數的更新值經過梯度下降法計算得出後要在最後同時更新所有參數。

2.保留損失函數

在代碼編寫過程中自己認為不用單獨寫一個損失函數,隻需在梯度下降的過程中利用求導後的公式進行相關的參數優化操作即可,但在運行沒有算是函數的程序時,沒有實時的損失函數結果評估模型訓練效果可能會導致模型在錯誤的道路上越走越遠。

3.註意數據類型

初次運行程序,在訓練至十幾輪時參數就不再變化,一直到第1000輪參數都保持不變。後來在檢查代碼時發現,在優化函數將一些參數的數據類型錯誤設置為整型。因此當參數值改變程度小於1時,參數將不再變化。

4.超參數的設置及參數的初始化

學習率,訓練輪次等的設置是一個對程序編寫者經驗要求比較高的工作,需要多次嘗試,找到合適的值,參數的初始化也是這樣。

心得

本次隻是實現瞭簡單線性回歸的最基本的功能,同時也試一下自己剛買的機械鍵盤(用起來真的很舒服)。這隻是我用來練手的程序,如果真的要編寫程序實現功能還是推薦使用python語言搭配TensorFlow、Pytorch等深度學習平臺實現自己想要的功能。程序的可完善空間非常大,比如數據和模型的可視化,將數據和模型的訓練效果直觀的展示出來,後面還會有序的用C語言實現諸如多元線性回歸,二分類問題,多分類問題甚至卷積神經網絡等等。我會在下面貼出使用Python語言編寫的線性回歸的程序,可以兩者結合起來比較一下異同。

# -*- coding: utf-8 -*-
"""
Spyder Editor
This is a temporary script file.
"""
import matplotlib.pyplot as plt
import tensorflow as tf
import numpy as np
 
np.random.seed(5)
 
x_data = np.linspace(-1,1,100)
y_data = 2 * x_data + 1.0 + np.random.randn(*x_data.shape) * 0.4
 
np.random.randn(10)
 
#x_data.shape
 
#np.random.randn(*x_data.shape)
#np.random.randn(100)
plt.scatter(x_data,y_data)
plt.plot(x_data, 2 * x_data + 1.0, color = 'red',linewidth=3)
 
x = tf.placeholder("float",name="x")
y = tf.placeholder("float",name="y")
 
def model(x,w,b):
    return tf.multiply(x,w)+b
 
w = tf.Variable(1.0,name="w0")
b = tf.Variable(0.0,name="b0")
 
pred = model(x,w,b)
 
train_epochs = 10
learning_rate = 0.05
 
loss_function = tf.reduce_mean(tf.square(y-pred))
 
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss_function)
 
sess = tf.Session()
 
init = tf.global_variables_initializer()
sess.run(init)
 
i_ci=0
 
for epoch in range(train_epochs):
    for xs,ys in zip(x_data,y_data):
        _, loss=sess.run([optimizer,loss_function],feed_dict={x:xs,y:ys})
        b0temp=b.eval(session=sess)
        w0temp=w.eval(session=sess)
    plt.plot(x_data,w0temp*x_data+b0temp)
        
print("w:",sess.run(w))
print("b:",sess.run(b))
 
plt.scatter(x_data,y_data,label='Original data')
plt.plot(x_data,x_data*sess.run(w)+sess.run(b),label='Fitted Line',color='r',linewidth=3)
plt.legend(loc=2)

到此這篇關於Python 機器學習之線性回歸詳解分析的文章就介紹到這瞭,更多相關Python 機器學習內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: