Python實現讀取HTML表格 pd.read_html()
Python讀取HTML表格
數據部門提供的數據是xls格式的文件,但是執行讀取xls文件的腳本報錯。
xlrd報錯:
xlrd.biffh.XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'<html xm'
讀取xlrd的腳本
data_lines = read_excel_file(self.file_path) def read_excel_file(file_path): """ 讀取excel文件 """ import xlrd print('[Info] excel file: {}'.format(file_path)) book = xlrd.open_workbook(file_path) sheet = book.sheet_by_index(0) data_lines = [] for row in range(0, sheet.nrows): line_data = [] for column in range(0, sheet.ncols): val = sheet.cell(row, column).value line_data.append(val) data_lines.append(line_data) return data_lines # 二維數組
原因是文件格式是HTML表格,參考python xlrd unsupported format, or corrupt file.
使用pandas的read_html讀取文件,同時替換nan為空字符,數據格式保持一致。
def read_html_table(file_path): """ 讀取html表格 """ import pandas as pd pd_table = pd.read_html(file_path) df = pd_table[0] # num_col = df.shape[1] # num_row = df.shape[0] df_data = df.values.tolist() df_data = df_data[1:] for r_idx, row in enumerate(df_data): for c_idx, value in enumerate(row): # 判斷nan,參考https://stackoverflow.com/questions/944700/how-can-i-check-for-nan-values if value != value: df_data[r_idx][c_idx] = "" return df_data
讀取問題解決。
pd.read_html讀取數據不完整問題
問題:有一個較大的表格數據存在瞭html中,打算用read_html直接取出來這部分數據,但後來發現read_html讀取的數據不完整,後來檢查html的table都沒有任何問題
解決辦法
pd.read_html的默認解析器為 'lxml' ,添加參數flavor='bs4'便可解決
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。
推薦閱讀:
- python 利用openpyxl讀取Excel表格中指定的行或列教程
- python實現簡易圖書管理系統
- python 按照sheet合並多個Excel的示例代碼(多個sheet)
- Python使用xlrd和xlwt實現自動化操作Excel
- python 使用xlsxwriter循環向excel中插入數據和圖片的操作