Python 圖片文字識別的實現之PaddleOCR

Posted on 2021-11-16 by WalkonNet

前言

什麼是OCR?

光學字符識別（Optical Character Recognition, OCR），是指對文本資料的圖像文件進行分析識別處理，獲取文字及版面信息的過程。簡而言之，檢測圖像中的文本資料，並且識別出文本的內容。

那麼有哪些應用場景呢？

其實我們日常生活中處處都有ocr的影子，比如在疫情期間身份證識別錄入信息、車輛車牌號識別、自動駕駛等。我們的生活中，機器學習已經越來越多的扮演著重要角色，也不再是神秘的東西。

OCR的技術路線是什麼呢？

ocr的運行方式如下圖，輸入->圖像預處理->文字檢測->文本識別->輸出。

本文主要是介紹一個博主使用的比較好的OCR開源項目，在這裡分享給大傢——PaddleOCR。

項目Github地址: PaddleOCR地址

我會按照剛接觸的狀態，梳理一下驗證使用該項目的過程。

項目使用

先把項目從github上clone下來，慢慢分析。

項目結構

首先我們看一下項目的構造。

發現項目有中文的介紹說明，這就很方便瞭，點開按照官方的說明開始操作。

環境部署

點開README.md,，可以從文檔教程中看到第一步就是教你如何安裝環境。

由於內容過多，我就做個概括，方便大傢直接上手。

1、安裝Anaconda，構造虛擬環境

這裡可以參考我的另一篇文章，裡面很詳細：Python 機器學習第一章環境配置圖解流程

官方給的是python3.8的虛擬環境，我們也構造一個，打開Anaconda Prompt。

輸入命令：

conda create -n paddle_env python=3.8

激活環境：

conda activate paddle_env

2、依賴包下載

paddlepaddle安裝

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

layoutparser安裝

pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

Shapely安裝，這個需要下載，下載地址：Shapely下載地址

我選的是這個

安裝命令：

pip install Shapely-1.8.0-cp38-cp38-win_amd64.whl

paddleocr安裝

pip install paddleocr -i https://mirror.baidu.com/pypi/simple

好的，環境有點多，都安裝好瞭就開始上手使用吧。

測試代碼

官方給出瞭兩種模式，一是命令行執行，一是代碼執行。為瞭直觀的看到配置，我這裡使用的是代碼模式。

準備一張帶文字的圖片

測試代碼如下

#!/user/bin/env python
# coding=utf-8
"""
@project : ocr_paddle
@author  : huyi
@file   : test.py
@ide    : PyCharm
@time   : 2021-11-15 14:56:20
"""
from paddleocr import PaddleOCR, draw_ocr
 
# Paddleocr目前支持的多語言語種可以通過修改lang參數進行切換
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False,
                lang="ch")  # need to run only once to download and load model into memory
img_path = './data/2.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    # print(line[-1][0], line[-1][1])
    print(line)
 
# 顯示結果
from PIL import Image
 
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

代碼說明

1、因為我的電腦沒有顯卡，所以設置瞭use_gpu=False。

2、顯示結果部分會將識別的文字用框標出來，並且展示識別的結果。

驗證一下

我們看到，打印的內容有識別出來的每句話所在的圖片位置，以及識別結果和可信度。而上面的結果圖中，將每句話對應的文字都框瞭出來。效果很不錯！

參數補充

官方還給出瞭一些參數，可以調整輸出的內容。可以參看quickstart.md文件。參數補充：

– 單獨使用檢測：設置`–rec`為`false`
– 單獨使用識別：設置`–det`為`false`

官方還提供一個標準的json結構輸出數據

PP-Structure的返回結果為一個dict組成的list，示例如下

“`shell
[{ ‘type’: ‘Text’,
‘bbox’: [34, 432, 345, 462],
‘res’: ([[36.0, 437.0, 341.0, 437.0, 341.0, 446.0, 36.0, 447.0], [41.0, 454.0, 125.0, 453.0, 125.0, 459.0, 41.0, 460.0]],
[(‘Tigure-6. The performance of CNN and IPT models using difforen’, 0.90060663), (‘Tent ‘, 0.465441)])
}
]
“`

總結

總的來說，這個項目還是很有意思的，訓練的部分我就不多贅述瞭，畢竟準備數據挺麻煩的。回頭我再想想這個項目可不可以魔改成好用的工具。

我們根本不需要最後的落腳點，隻要不斷前進就好瞭，隻要不停下，道路就會不斷延伸。——《進擊的巨人》

如果本文對你有幫助的話，請不要吝嗇你的贊，謝謝！

到此這篇關於Python 圖片文字識別的實現之PaddleOCR的文章就介紹到這瞭,更多相關Python 文字識別內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python 圖片文字識別的實現之PaddleOCR

目錄

前言

項目使用

項目結構

環境部署

1、安裝Anaconda，構造虛擬環境

2、依賴包下載

測試代碼

參數補充

總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

前言

項目使用

項目結構

環境部署

1、安裝Anaconda，構造虛擬環境

2、依賴包下載

測試代碼

參數補充

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆