Python數學建模StatsModels統計回歸模型數據的準備

Posted on 2021-10-18 by WalkonNet

1、讀取數據文件

回歸分析問題所用的數據都是保存在數據文件中的，首先就要從數據文件讀取數據。

數據文件的格式很多，最常用的是 .csv，.xls 和 .txt 文件，以及 sql 數據庫文件的讀取。

使用 pandas 從數據文件導入數據的程序最為簡單，示例如下：

（1）讀取 .csv 文件：

    df = pd.read_csv("./example.csv", engine="python", encoding="utf_8_sig")
    # engine="python"允許處理中文路徑，encoding="utf_8_sig"允許讀取中文數據

（2）讀取 .xls 文件：

df = pd.read_excel("./example.xls", sheetname='Sheet1', header=0, encoding="utf_8_sig")
    # sheetname 表示讀取的sheet，header=0 表示首行為標題行， encoding 表示編碼方式

（3）讀取 .txt 文件：

    df = pd.read_table("./example.txt", sep="\t", header=None)
    # sep 表示分隔符，header=None表示無標題行，第一行是數據

2、數據文件的拆分與合並

統計回歸所需處理的數據量可能非常大，必要時需對文件進行拆分或合並，也可以用 pandas 進行處理，示例如下：

（1）將 Excel 文件分割為多個文件

    # 將 Excel 文件分割為多個文件
    import pandas as pd
    dfData = pd.read_excel('./example.xls', sheetname='Sheet1')
    nRow, nCol = dfData.shape  # 獲取數據的行列
    # 假設數據共有198,000行，分割為 20個文件，每個文件 10,000行
    for i in range(0, int(nRow/10000)+1):
        saveData = dfData.iloc[i*10000+1:(i+1)*10000+1, :]  # 每隔 10,000
        fileName= './example_{}.xls'.format(str(i))
        saveData.to_excel(fileName, sheet_name = 'Sheet1', index = False)

（2）將多個 Excel 文件合並為一個文件

    # 將多個 Excel 文件合並為一個文件
    import pandas as pd
    ## 兩個 Excel 文件合並
    #data1 = pd.read_excel('./example0.xls', sheetname='Sheet1')
    #data2 = pd.read_excel('./example1.xls', sheetname='Sheet1')
    #data = pd.concat([data1, data2])
    # 多個 Excel 文件合並
    dfData = pd.read_excel('./example0.xls', sheetname='Sheet1')
    for i in range(1, 20):
        fileName = './example_{}.xls'.format(str(i))
        dfNew = pd.read_excel(fileName)
        dfData = pd.concat([dfData, dfNew])
    dfData.to_excel('./example', index = False)
    # = 關註 Youcans，分享原創系列 https://blog.csdn.net/youcans =

3、數據的預處理

在實際工作中，在開始建立模型和擬合分析之前，還要對原始數據進行數據預處理（data preprocessing），主要包括：缺失值處理、重復數據處理、異常值處理、變量格式轉換、訓練集劃分、數據的規范化、歸一化等。

數據預處理的很多內容已經超出瞭 Statsmodels 的范圍，在此隻介紹最基本的方法：

（1）缺失數據的處理

導入的數據存在缺失是經常發生的，最簡單的處理方式是刪除缺失的數據行。使用 pandas 中的 .dropna() 刪除含有缺失值的行或列，也可以對特定的列進行缺失值刪除處理。

    dfNew = dfData.dropna(axis = 0))  # 刪除含有缺失值的行

有時也會填充缺失值或替換缺失值，在此就不做介紹瞭。　

（2）重復數據的處理

對於重復數據，通常會刪除重復行。使用 pandas 中的 .duplicated() 可以查詢重復數據的內容，使用 .drop_duplicated() 可以刪除重復數據，也可以對指定的數據列進行去重。

    dfNew = dfData.drop_duplicates(inplace=True)  # 刪除重復的數據行

（3）異常值處理

數據中可能包括異常值，是指一個樣本中的數值明顯偏離樣本集中其它樣本的觀測值，也稱為離群點。異常值可以通過箱線圖、正態分佈圖進行識別，也可以通過回歸、聚類建模進行識別。

箱線圖技術是利用數據的分位數識別其中的異常點。箱形圖分析也超過本文的內容，不能詳細介紹瞭。隻能籠統地說通過觀察箱形圖，可以查看整體的異常情況，進而發現異常值。

    dfData.boxplot()  # 繪制箱形圖

對於異常值通常不易直接刪除，需要結合具體情況進行考慮和處理。使用 pandas 中的 .drop() 可以直接刪除異常值數據行，或者使用判斷條件來判定並刪除異常值數據行。

    # 按行刪除，drop() 默認 axis=0 按行刪除
    dfNew = dfData.drop(labels=0)   # 按照行號 labels，刪除 行號為 0 的行
    dfNew = dfData.drop(index=dfData[dfData['A']==-1].index[0])   # 按照條件檢索，刪除 dfData['A']=-1 的行

4、Python 例程（Statsmodels）

4.1 問題描述

數據文件中收集瞭 30個月本公司牙膏銷售量、價格、廣告費用及同期的市場均價。
　　（1）分析牙膏銷售量與價格、廣告投入之間的關系，建立數學模型；
　　（2）估計所建立數學模型的參數，進行統計分析；
　　（3）利用擬合模型，預測在不同價格和廣告費用下的牙膏銷售量。

本問題及數據來自：薑啟源、謝金星，數學模型（第 3版），高等教育出版社。
需要說明的是，本文例程並不是問題最佳的求解方法和結果，隻是使用該問題及數據示范讀取數據文件和數據處理的方法。

4.2 Python 程序

# LinearRegression_v3.py
# v1.0: 調用 statsmodels 實現一元線性回歸
# v2.0: 調用 statsmodels 實現多元線性回歸
# v3.0: 從文件讀取數據樣本
# 日期：2021-05-06
# Copyright 2021 YouCans, XUPT
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
def main():
    # 讀取數據文件
    readPath = "../data/toothpaste.csv"  # 數據文件的地址和文件名
    try:
        if (readPath[-4:] == ".csv"):
            dfOpenFile = pd.read_csv(readPath, header=0, sep=",")  # 間隔符為逗號，首行為標題行
            # dfOpenFile = pd.read_csv(filePath, header=None, sep=",")  # sep: 間隔符，無標題行
        elif (readPath[-4:] == ".xls") or (readPath[-5:] == ".xlsx"):  # sheet_name 默認為 0
            dfOpenFile = pd.read_excel(readPath, header=0)  # 首行為標題行
            # dfOpenFile = pd.read_excel(filePath, header=None)  # 無標題行
        elif (readPath[-4:] == ".dat"):  # sep: 間隔符，header：首行是否為標題行
            dfOpenFile = pd.read_table(readPath, sep=" ", header=0)  # 間隔符為空格，首行為標題行
            # dfOpenFile = pd.read_table(filePath,sep=",",header=None) # 間隔符為逗號，無標題行
        else:
            print("不支持的文件格式。")
        print(dfOpenFile.head())
    except Exception as e:
        print("讀取數據文件失敗：{}".format(str(e)))
        return
    # 數據預處理
    dfData = dfOpenFile.dropna()  # 刪除含有缺失值的數據
    print(dfData.dtypes)  # 查看 df 各列的數據類型
    print(dfData.shape)  # 查看 df 的行數和列數
    # colNameList = dfData.columns.tolist()  # 將 df 的列名轉換為列表 list
    # print(colNameList)  # 查看列名列表 list
    # featureCols = ['price', 'average', 'advertise', 'difference']  # 篩選列，建立自變量列名 list
    # X = dfData[['price', 'average', 'advertise', 'difference']]  # 根據自變量列名 list，建立 自變量數據集
    # 準備建模數據：分析因變量 Y(sales) 與 自變量 x1~x4  的關系
    y = dfData.sales  # 根據因變量列名 list，建立 因變量數據集
    x0 = np.ones(dfData.shape[0])  # 截距列 x0=[1,...1]
    x1 = dfData.price  # 銷售價格
    x2 = dfData.average  # 市場均價
    x3 = dfData.advertise  # 廣告費
    x4 = dfData.difference  # 價格差，x4 = x1 - x2
    X = np.column_stack((x0,x1,x2,x3,x4))  #[x0,x1,x2,...,x4]
    # 建立模型與參數估計
    # Model 1：Y = b0 + b1*X1 + b2*X2 + b3*X3 + b4*X4 + e
    model = sm.OLS(y, X)  # 建立 OLS 模型
    results = model.fit()  # 返回模型擬合結果
    yFit = results.fittedvalues  # 模型擬合的 y 值
    print(results.summary())  # 輸出回歸分析的摘要
    print("\nOLS model: Y = b0 + b1*X + ... + bm*Xm")
    print('Parameters: ', results.params)  # 輸出：擬合模型的系數
    # 擬合結果繪圖
    fig, ax = plt.subplots(figsize=(10, 8))
    ax.plot(range(len(y)), y, 'bo', label='sample')
    ax.plot(range(len(yFit)), yFit, 'r--', label='predict')
    ax.legend(loc='best')  # 顯示圖例
    plt.show()  # YouCans, XUPT
    return
if __name__ == '__main__':
    main()

4.3 程序運行結果：

   period  price  average  advertise  difference  sales
0       1   3.85     3.80       5.50       -0.05   7.38
1       2   3.75     4.00       6.75        0.25   8.51
2       3   3.70     4.30       7.25        0.60   9.52
3       4   3.70     3.70       5.50        0.00   7.50
4       5   3.60     3.85       7.00        0.25   9.33
OLS Regression Results                            
==============================================================================
Dep. Variable:                  sales   R-squared:                       0.895
Model:                            OLS   Adj. R-squared:                  0.883
Method:                 Least Squares   F-statistic:                     74.20
Date:                Fri, 07 May 2021   Prob (F-statistic):           7.12e-13
Time:                        11:51:52   Log-Likelihood:                 3.3225
No. Observations:                  30   AIC:                             1.355
Df Residuals:                      26   BIC:                             6.960
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          8.0368      2.480      3.241      0.003       2.940      13.134
x1            -1.1184      0.398     -2.811      0.009      -1.936      -0.300
x2             0.2648      0.199      1.332      0.195      -0.144       0.674
x3             0.4927      0.125      3.938      0.001       0.236       0.750
x4             1.3832      0.288      4.798      0.000       0.791       1.976
==============================================================================
Omnibus:                        0.141   Durbin-Watson:                   1.762
Prob(Omnibus):                  0.932   Jarque-Bera (JB):                0.030
Skew:                           0.052   Prob(JB):                        0.985
Kurtosis:                       2.885   Cond. No.                     2.68e+16
==============================================================================
OLS model: Y = b0 + b1*X + ... + bm*Xm
Parameters:  const    8.036813
x1      -1.118418
x2       0.264789
x3       0.492728
x4       1.383207

在這裡插入圖片描述

版權說明：

本問題及數據來自：薑啟源、謝金星，數學模型（第 3版），高等教育出版社
本文內容及例程為作者原創，並非轉載書籍或網絡內容。

以上就是Python數學建模StatsModels統計回歸模型數據的準備的詳細內容，更多關於數學建模StatsModels統計回歸模型數據準備的資料請關註WalkonNet其它相關文章！

Python數學建模StatsModels統計回歸模型數據的準備

目錄

1、讀取數據文件

（1）讀取 .csv 文件：

（2）讀取 .xls 文件：

（3）讀取 .txt 文件：

2、數據文件的拆分與合並

（1）將 Excel 文件分割為多個文件

（2）將多個 Excel 文件合並為一個文件

3、數據的預處理

（1）缺失數據的處理

（2）重復數據的處理

（3）異常值處理

4、Python 例程（Statsmodels）

4.1 問題描述

4.2 Python 程序

4.3 程序運行結果：

版權說明：

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

1、讀取數據文件

（1）讀取 .csv 文件：

（2）讀取 .xls 文件：

（3）讀取 .txt 文件：

2、數據文件的拆分與合並

（1）將 Excel 文件分割為多個文件

（2）將 多個 Excel 文件合並為一個文件

3、數據的預處理

（1）缺失數據的處理

（2）重復數據的處理

（3）異常值處理

4、Python 例程（Statsmodels）

4.1 問題描述

4.2 Python 程序

4.3 程序運行結果：

版權說明：

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

（2）將多個 Excel 文件合並為一個文件

發佈留言取消回覆