python 讀取以空格分開的文件操作

Posted on 2021-04-16 by WalkonNet

在查找數據集的時候發現，並不是所有的數據集都是以csv的格式存儲，也就是每一列特征數據的分割並不是都以逗號分割，有的數據格式是以空格為分割

例如.data格式，

接下來就實現對.data格式數據的讀取：

(數據來源於Boston房價預測數據集，文件名稱為“housing.data”)

import pandas as pd
data = pd.read_csv('./housing.data', delim_whiteshape=True)

以上代碼就是實現瞭對空格的分割，但是不知道針對也是以一列存儲，並且數據分割也是空格的csv文件此方法還行得通不。

另外pd.read_csv()中的參數sep和delimiter表示的意義一樣，具體如何使用不清楚，目前用到不多。

遇到讀取文件不知如何操作的，最後要訪問下官方文檔或者google查詢。

pd.read_csv官方文檔

另外，可以直接在原數據集文件加後綴名.csv即可轉換成csv文件，但前提是data中的數據已經以，分割好瞭。

pd.read_csv()中讀取文件時，默認第一行作為列名，但有時候第一行也是我們需要的數據，這時需制定參數header=None，或者給每列提前設置好名字，names=[‘column0′,‘column1′,…]

補充：python 實現以空格分隔的文件讀寫及二維數組按列折半查找

最近文件讀寫的工作比較多，每一次讀文件都會寫單獨的函數來適應文件格式，所以寫瞭一個類對文件進行操作。

（用pandas.read_csv讀取文件更好用）

import os
class DealData:
    # 數據加載函數
    def load(self, filename):
        data = []
        file = open(filename, 'r')
        for line in file.readlines():
            line = line.strip('\n')         # 除去換行
            line = line.split(' ')          # 文件以“ ”分隔
            if "" in line:                  # 解決每行結尾有空格的問題
                line.remove("")
            data.append(line)
        file.close()
        return data
 
    # 折半查找                               # array是一個二維數組，函數實現的功能是按照array的第lie列折半查找
    def search(self, array, lie, target):
        low = 0
        high = len(array) - 1
        while array[low][lie] <= array[high][lie]:
            mid = int((low + high) / 2)
            midval = array[mid][lie]
            if midval < target:
                low = mid + 1
            elif midval > target:
                high = mid - 1
            if high < 0 or low >= len(array):
                break
        return high
    # 將數據保存到文件                
    def save(self, data, filename):
        file = open(filename, 'w')
        for i in range(0, len(data), 1):
            for k in range(0, len(data[i]), 1):
                file.write(str(data[i][k]))
                file.write(" ")
            file.write("\n")
        file.close()

可以將Dealdata類單獨創建一個python文件，命名為Dealdata，調用方法如下：

from DealData import DealData 
deal = DealData()
totaldata = deal.load("E:\low_data.txt")

之前先引用類：from Dealdata import Dealdata，其中第一個Dealdata為被調用的python文件名，第二個Dealdata為被調用的類名。

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方，望不吝賜教。

python 讀取以空格分開的文件操作

接下來就實現對.data格式數據的讀取：

（用pandas.read_csv讀取文件更好用）

推薦閱讀：

發佈留言取消回覆

近期文章

接下來就實現對.data格式數據的讀取：

（用pandas.read_csv讀取文件更好用）

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆