如何使用Python進行PDF圖片識別OCR
使用場景
使用圖片識別可以快速提取圖片中的信息,方便高效。
Python並不能直接對PDF進行識別,所以如果是識別PDF的話,需要先將PDF轉化為圖片,然後再進行識別。
必備工具
- Python
可以安裝3.7及以上版本
- tesseract-ocr
下載地址: https://github.com/UB-Mannheim/tesseract/wiki 使用最新版本即可
- 需要用到的庫
pip install pillow pip install opencv-python pip install fitz pip install PyMuPDF pip install pytesseract
代碼示例
from PIL import Image import os import pytesseract import cv2 as cv import fitz def pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle): # 打開PDF文件 pdf = fitz.open(pdfPath) # 逐頁讀取PDF for pg in range(0, pdf.pageCount): page = pdf[pg] # 設置縮放和旋轉系數 trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle) pm = page.getPixmap(matrix=trans, alpha=False) # 開始寫圖像 pm.writePNG(imgPath+str(pg)+".png") #pm.writePNG(imgPath) pdf.close() pdf_path ='D:/123.pdf' img_path ='D:/123.png' pdf_image(pdf_path,img_path,5,5,0) # 依賴opencv img=cv.imread(img_path) text=pytesseract.image_to_string(Image.fromarray(img),lang='chi_tra') # 不依賴opencv寫法 # text=pytesseract.image_to_string(Image.open(img_path)) print(text)
總結
識別清晰的文字圖片的時候準確率非常高
但是識別手寫體的話效果不太好
註意事項
在安裝tesseract-ocr 的時候一定要記得選擇對應的語言,不然是無法正常使用的。
以上就是如何使用Python進行PDF圖片識別OCR的詳細內容,更多關於python pdf圖片識別ocr的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- Python實現PDF掃描件生成DOCX或EXCEL功能
- python pytesseract庫的實例用法
- 如何利用Python識別圖片中的文字詳解
- Python操作PDF文件之實現A3頁面轉A4
- Opencv 圖片的OCR識別的實戰示例