Python OpenCV機器學習之圖像識別詳解

背景

OpenCV中也提供瞭一些機器學習的方法,例如DNN;本篇將簡單介紹一下機器學習的一些應用,對比傳統和前沿的算法,能從其中看出優劣;

一、人臉識別

主要有以下兩種實現方法:

1、哈爾(Haar)級聯法:專門解決人臉識別而推出的傳統算法;

實現步驟:

創建Haar級聯器;

導入圖片並將其灰度化;

調用函數接口進行人臉識別;

函數原型:

detectMultiScale(img,scaleFactor,minNeighbors)

scaleFactor:縮放尺寸;

minNeighbors:最小像素值;

代碼案例:

# 創建Haar級聯器
facer = cv2.CascadeClassifier('./haarcascades/haarcascade_frontalface_default.xml')
# 導入人臉圖片並灰度化
img = cv2.imread('p3.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 調用接口
faces = facer.detectMultiScale(gray, 1.1, 5)

for (x,y,w,h) in faces:
    cv2.rectangle(img, (x,y), (x+w, y+h), (0,0,255), 2)

cv2.imshow('img', img)
cv2.waitKey()

結論:Haar級聯法對於完整臉部的檢測效果還是不錯的,但對於不完整臉部識別效果差,這可能也是傳統算法的一個缺陷所在,泛化能力比較差;

拓展:Haar級聯器還可以對臉部中細節特征進行識別

代碼如下:

# 創建Haar級聯器
facer = cv2.CascadeClassifier('./haarcascades/haarcascade_frontalface_default.xml')
eyer = cv2.CascadeClassifier('./haarcascades/haarcascade_eye.xml')
# 導入人臉圖片並灰度化
img = cv2.imread('p3.png')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 調用接口
faces = facer.detectMultiScale(gray, 1.1, 5)
i = 0
for (x,y,w,h) in faces:
    cv2.rectangle(img, (x,y), (x+w, y+h), (0,0,255), 2)
    ROI_img = img[y:y+h, x:x+w]
    eyes = eyer.detectMultiScale(ROI_img, 1.1, 5)
    for (x,y,w,h) in eyes:
        cv2.rectangle(ROI_img, (x,y), (x+w, y+h), (0,255,0), 2)
    i += 1
    name = 'img'+str(i)
    cv2.imshow(name, ROI_img)
cv2.waitKey()

總結:Haar級聯器提供瞭多種臉部屬性的識別,眼睛鼻子嘴巴都可以,但效果不一定那麼準確;

二、車牌識別

結構:Haar+Tesseract車牌識別;

說明:Haar級聯器僅用於定位車牌的位置,Tesseract用於提取其中的內容;

實現步驟:

1、Haar級聯器定位車牌位置;

2、車牌預處理操作(二值化、形態學、濾波去噪、縮放);

3、調用Tesseract進行文字識別;

註意:這裡需要預先安裝Tesseract;

代碼案例:

import pytesseract
# 創建Haar級聯器
carer = cv2.CascadeClassifier('./haarcascades/haarcascade_russian_plate_number.xml')
# 導入人臉圖片並灰度化
img = cv2.imread('chinacar.jpeg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# 調用接口 
cars = carer.detectMultiScale(gray, 1.1, 3)
for (x,y,w,h) in cars:
    cv2.rectangle(img, (x,y), (x+w, y+h), (0,0,255), 2)
# 提取ROI
roi = gray[y:y+h, x:x+w]
# 二值化
ret, roi_bin = cv2.threshold(roi, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
# 文字識別
pytesseract.pytesseract.tesseract_cmd = r"D:\Tesseract_OCR\tesseract.exe"
text = pytesseract.image_to_string(roi, lang='chi_sim+eng',config='--psm 8 --oem 3')
print(text)
cv2.putText(img, text, (20,100), cv2.FONT_HERSHEY_SIMPLEX, 2, (0,0,255), 3)
cv2.imshow('img', img)
cv2.waitKey()

結論:車牌的位置檢測比較準確,但Tesseract的識別並不那麼準確,可能用ORC識別會準確一些;當然識別的準確率也和圖像處理後比較模糊有關,做一些處理能夠提升文字的識別率;

三、DNN圖像分類

DNN為深度神經網絡,並且是全連接的形式;

註意:OpenCV能夠使用DNN模型,但並不能訓練;

DNN使用步驟:

讀取模型,得到網絡結構;

讀取數據(圖片或視頻)

將圖片轉成張量,送入網絡;

模型輸出結果;

函數原型:

導入模型:readNet(model,[config])

圖像轉張量:blobFromImage(image,scalefactor,size,mean,swapRB,crop)

送入網絡:net.setInput(blob)

模型推理:net.forward()

代碼案例:

# 導入模型
config = "./model/bvlc_googlenet.prototxt"
model = "./model/bvlc_googlenet.caffemodel"
net = dnn.readNetFromCaffe(config, model)

# 加載圖片,轉成張量
img = cv2.imread('./smallcat.jpeg')
blob = dnn.blobFromImage(img, 1.0, (224,224), (104,117,123))

# 模型推理
net.setInput(blob)
r = net.forward()
idxs = np.argsort(r[0])[::-1][:5]

# 分類結果展示
path = './model/synset_words.txt'
with open(path, 'rt') as f:
    classes = [x[x.find(" ")+1:]for x in f]
for (i, idx) in enumerate(idxs):
# 將結果展示在圖像上
    if i == 0:
        text = "Label: {}, {:.2f}%".format(classes[idx],
            r[0][idx] * 100)
        cv2.putText(img, text, (5, 25),  cv2.FONT_HERSHEY_SIMPLEX,
            0.7, (0, 0, 255), 2)
# 顯示圖像
cv2.imshow("Image", img)
cv2.waitKey(0)

結論:實際上有瞭模型之後,推理的步驟並不復雜,難點在於前處理與後處理;往往圖像的處理上的錯誤,或者是對結果的處理問題,會導致結果不符,這是需要特別註意的;

到此這篇關於Python OpenCV機器學習之圖像識別詳解的文章就介紹到這瞭,更多相關OpenCV 圖像識別內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: