python 讀取以空格分開的文件操作
在查找數據集的時候發現,並不是所有的數據集都是以csv的格式存儲,也就是每一列特征數據的分割並不是都以逗號分割,有的數據格式是以空格為分割
例如.data格式,
接下來就實現對.data格式數據的讀取:
(數據來源於Boston房價預測數據集,文件名稱為“housing.data”)
import pandas as pd data = pd.read_csv('./housing.data', delim_whiteshape=True)
以上代碼就是實現瞭對空格的分割,但是不知道針對也是以一列存儲,並且數據分割也是空格的csv文件此方法還行得通不。
另外pd.read_csv()中的參數sep和delimiter表示的意義一樣,具體如何使用不清楚,目前用到不多。
遇到讀取文件不知如何操作的,最後要訪問下官方文檔或者google查詢。
pd.read_csv官方文檔
另外,可以直接在原數據集文件加後綴名.csv即可轉換成csv文件,但前提是data中的數據已經以,分割好瞭。
pd.read_csv()中讀取文件時,默認第一行作為列名,但有時候第一行也是我們需要的數據,這時需制定參數header=None,或者給每列提前設置好名字,names=[‘column0′,‘column1′,…]
補充:python 實現以空格分隔的文件讀寫及二維數組按列折半查找
最近文件讀寫的工作比較多,每一次讀文件都會寫單獨的函數來適應文件格式,所以寫瞭一個類對文件進行操作。
(用pandas.read_csv讀取文件更好用)
import os class DealData: # 數據加載函數 def load(self, filename): data = [] file = open(filename, 'r') for line in file.readlines(): line = line.strip('\n') # 除去換行 line = line.split(' ') # 文件以“ ”分隔 if "" in line: # 解決每行結尾有空格的問題 line.remove("") data.append(line) file.close() return data # 折半查找 # array是一個二維數組,函數實現的功能是按照array的第lie列折半查找 def search(self, array, lie, target): low = 0 high = len(array) - 1 while array[low][lie] <= array[high][lie]: mid = int((low + high) / 2) midval = array[mid][lie] if midval < target: low = mid + 1 elif midval > target: high = mid - 1 if high < 0 or low >= len(array): break return high # 將數據保存到文件 def save(self, data, filename): file = open(filename, 'w') for i in range(0, len(data), 1): for k in range(0, len(data[i]), 1): file.write(str(data[i][k])) file.write(" ") file.write("\n") file.close()
可以將Dealdata類單獨創建一個python文件,命名為Dealdata,調用方法如下:
from DealData import DealData deal = DealData() totaldata = deal.load("E:\low_data.txt")
之前先引用類:from Dealdata import Dealdata, 其中第一個Dealdata為被調用的python文件名, 第二個Dealdata為被調用的類名。
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- None Found