用Python提取PDF表格的方法
大傢好,從PDF中提取信息是辦公場景中經常需要用到的操作,也是經常又讀者在後臺問的一個操作。
內容少的話我們可以手動復制粘貼,但如果需要批量提取就可以考慮使用Python,之前我也轉載過相關文章,提到主要就是使用pdfplumber庫,今天我們再次舉例講解。
通常PDF裡的表格分為圖片型和文本型。文本型又分簡單型和復雜型。本文就針對這三部分舉例講解。
- 提取簡單型表格
- 提取較為復雜型表格
- 提取圖片型表格
用到的模塊主要有
- pdfplumber
- pandas
- Tesseract
- PIL
文中出現的PDF材料是在巨潮資訊官網下載的公開PDF文件,主題是關於理財的,相關發佈信息等信息如下:
內容總共有6頁,後文中的例子會有展示。
一、簡單文本類型數據
簡單文本類型表格就是一頁PDF中隻有一個表格,並且表格內容完整可復制,例如我們選定內容為PDF中的第四頁,內容如下:
可以看到,該頁隻有一個表格,下面我們將這個表寫入Excel中,先上代碼
import pdfplumber as pr import pandas as pd pdf = pr.open('關於使用自有資金購買銀行理財產品的進展公告.PDF') ps = pdf.pages pg = ps[3] tables = pg.extract_tables() table = tables[0] print(table) df = pd.DataFrame(table[1:],columns = table[0]) for i in range(len(table)): for j in range(len(table[i])): table[i][j] = table[i][j].replace('\n','') df1 = pd.DataFrame(table[1:],columns = table[0]) df1.to_excel('page2.xlsx')
得到的結果如下:
通過與PDF上原表格對比,在內容上是完全一致的,唯一不同的是由於主營業務內容較多,導致顯示的不全面,現在來說說這段代碼。
首先導入要用到的兩個庫。在pdfplumber中,open()函數是用來打開PDF文件,該代碼用的是相對路徑。.open().pages則是獲取PDF的頁數,打印ps值可以得到如下
pg = ps[3]代表的就是我們所選的第三頁。
pg.extract_tables():可輸出頁面中所有表格,並返回一個嵌套列表,其結構層次為table→row→cell。此時,頁面上的整個表格被放入一個大列表中,原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素,得到的便是由原表格同一行元素構成的列表。
與其類似的是pg.extract_table( ):返回多個獨立列表,其結構層次為row→cell。若頁面中存在多個行數相同的表格,則默認輸出頂部表格;否則,僅輸出行數最多的一個表格。此時,表格的每一行都作為一個單獨的列表,列表中每個元素即為原表格的各個單元格內容。
由於該頁面中隻有一個表格,我們需要tables集合中的第一個元素。打印table值,如下:
可以看到在上述中是存在\n這種沒不要的字符,它的作用其實是換行但我們在Excel中是不需要的。所以需要剔除它,用代碼中的for循環與replace函數將控制替換成空格(即刪除\n)。觀察table是一個裝有2個元素的列表。
最後df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創建一個數據框,將內容放到對應的行列中。
本代碼隻是簡單將數據存入到Excel,如果你需要進一步對樣式進行調整,可以使用openpyxl等模塊進行修改。
二、復雜型表格提取
復雜型表格即表格樣式不統一或一頁中有多個表格,以PDF中的第五頁為例:
可以看到本頁中有兩個大的表格,並且細看的話,其實是4個表格,按照簡單型表格類型提取方法,得到的效果如下:
可以看到,隻是將全部表格文本提取出來,但實際上第一個表格又細分為兩個表,所以需要我們進一步修改,將這張表再次拆分!例如提取上半部分代碼如下:
import pdfplumber as pr import pandas as pd pdf = pr.open('關於使用自有資金購買銀行理財產品的進展公告.PDF') ps = pdf.pages pg = ps[4] tables = pg.extract_tables() table = tables[0] print(table) df = pd.DataFrame(table[1:],columns = table[0]) for i in range(len(table)): for j in range(len(table[i])): table[i][j] = table[i][j].replace('\n','') df1 = pd.DataFrame(table[1:],columns = table[0]) df2 = df1.iloc[2:,:] df2 = df2.rename(columns = {"2019年12月31日":"2019年1-12月","2020年9月30日":"2020年1-9月"}) df2 = df2.loc[3:,:] df1 = df1.loc[:1,:] with pd.ExcelWriter('公司影響.xlsx') as i: df1.to_excel(i,sheet_name='資產', index=False, header=True) #放入資產數據 df2.to_excel(i,sheet_name='營業',index=False, header=True) #放入營業數據
這段代碼在簡單型表格提取的基礎上進行瞭修改,第十四行代碼的作用就是提取另外一個表頭的信息,並將他賦值給df2,而後對df2進行重命名操作(用到rename函數)。
打印df2可以看出columns列名和第一行信息重復瞭,因此我們需要重復剛剛的步驟,利用loc()函數切割數據框。
註意,我們這裡用瞭罕見的pandas.Excelwriter函數套for循環,這個是為瞭避免直接寫入導致的最後數據覆蓋原數據,感興趣可以嘗試一下不用withopen這種方法後結果。最終得到的效果如下:
可以看到,現在這個表格就被放在兩個sheet中單獨展示,當然用於對比放在一張表中也是可以的
說到底復雜型表格的主觀性是非常大的,需要根據不同情況進行不同處理,想寫出一個一勞永逸的辦法是比較困難的!
三、圖片型表格提取
最後也是最難處理的就是圖片型表格,經常有人會問如何提取圖片型PDF中的表格/文本等信息。
其實本質上就是提取圖片,之後如何對圖片進一步處理提取信息就與Python提取PDF表格這個主題沒有太大關系瞭!
這裡我們也簡單進行介紹,也就是先提取圖片再進行OCR識別提取表格,在Python中可以使用Tesseract庫,首先需要pip安裝
pip install pytesseract
在Python中安裝完這個庫之後我們需要安裝exe文件以在後面代碼用到。
http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下載安裝完即可,註意目前如果按照正常步驟安裝的話是不會識別中文的,所以需要安裝簡體中文語言包,下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata,將其放到Tesseract-OCR的tessdata目錄下即可。
接下來我們使用一個簡單的圖片型pdf如下:
第一步,提取圖片,這裡使用在GUI辦公自動化系列中的圖片提取軟件來提取PDF中的圖片,得到如下圖片:
接著執行下方代碼識別圖片內容
import pytesseract from PIL import Image import pandas as pd pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe' tiqu = pytesseract.image_to_string(Image.open('圖片型.jpg')) print(tiqu) tiqu = tiqu.split('\n') while '' in tiqu: #不能使用for tiqu.remove('') first = tiqu[:6] second = tiqu[6:12] third = tiqu[12:] df = pd.DataFrame() df[first[0]] = first[1:] df[second[0]] = second[1:] df[third[0]] = third[1:] #df.to_excel('圖片型表格.xlsx') #轉為xlsx文件
我們的思路是用Tesseract-OCR來解析圖片,得到一個字符串,接著對字符串運用split函數,把字符串變成列表同時刪除\n。
接著可以發現我們的列表裡還存在空格,這時我們用while循環來刪除這些空字符,註意,這裡不能用for循環,因為每次刪除一個,列表裡的元素就會前進一個,這樣會刪不完全。最後就是用pandas把這些變成數據框形式。最終得到的效果如下:
可以看到,該圖片型表格內容被完美解析與處理!當然能輕松搞定的原因也與這個表格足夠簡單有關,在真實場景中的圖片可能會有更復雜的幹擾因素,而這就需要大傢在處理的同時自行找到一個最合適的辦法!
以上就是用Python提取PDF表格的方法的詳細內容,更多關於Python提取PDF表格的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- None Found