基於Python OpenCV和 dlib實現眨眼檢測

今天,我們使用面部標記和 OpenCV 檢測視頻流中的眨眼次數。

為瞭構建我們的眨眼檢測器,我們將計算一個稱為眼睛縱橫比 (EAR) 的指標,該指標由 Soukupová 和 Čech 在他們 2016 年的論文《使用面部標記的實時眨眼檢測》中介紹。

與計算眨眼的傳統圖像處理方法不同,傳統的圖像處理方法通常涉及以下某些組合:

  • 眼睛定位。
  • 閾值以找到眼白。
  • 確定眼睛的“白色”區域是否在一段時間內消失(表示眨眼)。
  • 眼睛縱橫比是一個更優雅的解決方案,它涉及基於眼睛面部標志之間距離比的非常簡單的計算。

這種眨眼檢測方法要求快速、高效且易於實現。

今天我們通過四部分來實現眨眼檢測:

第一部分,我們將討論眼睛縱橫比以及如何使用它來確定一個人在給定的視頻幀中是否在眨眼。

然後,我們將編寫 Python、OpenCV 和 dlib 代碼來 (1) 執行面部標志檢測和 (2) 檢測視頻流中的眨眼。

基於此實現,我們將應用我們的方法來檢測示例網絡攝像頭流和視頻文件中的眨眼。

最後,我將通過討論改進眨眼檢測器的方法來結束今天的博客文章。

瞭解“眼睛縱橫比”(EAR)

在眨眼檢測方面,我們隻對兩組面部結構感興趣——眼睛。每隻眼睛由 6 個 (x, y) 坐標表示,從眼睛的左角開始(就像您在看人一樣),然後圍繞該區域的其餘部分順時針旋轉:

基於這張圖片,我們應該瞭解關鍵點:

這些坐標的寬度和高度之間存在關系。根據 Soukupová 和 Čech 在 2016 年發表的論文《使用面部標志進行實時眨眼檢測》中的工作,我們可以推導出反映這種關系的方程,稱為眼睛縱橫比 (EAR):

其中 p1, …, p6 是 2D 面部標志位置。

該方程的分子計算垂直眼睛界標之間的距離,而分母計算水平眼睛界標之間的距離,由於隻有一組水平點但有兩組垂直點,因此對分母進行適當加權。

為什麼這個方程如此有趣?

好吧,正如我們將發現的那樣,眼睛睜開時眼睛的縱橫比大致恒定,但在眨眼時會迅速降至零。

使用這個簡單的方程,我們可以避免使用圖像處理技術,而隻需依靠眼睛界標距離的比率來確定一個人是否在眨眼。

為瞭更清楚地說明這一點,請考慮 Soukupová 和 Čech 的下圖:

在左上角,我們有一個完全睜開的眼睛——這裡的眼睛縱橫比會很大(r)並且隨著時間的推移相對恒定。

然而,一旦人眨眼(右上),眼睛的縱橫比就會急劇下降,接近於零。

下圖繪制瞭視頻剪輯的眼睛縱橫比隨時間變化的圖表。 正如我們所看到的,眼睛縱橫比是恒定的,然後迅速下降到接近零,然後再次增加,表明發生瞭一次眨眼。

在下一節中,我們將學習如何使用面部標志、OpenCV、Python 和 dlib 實現眨眼檢測的眼睛縱橫比。

使用面部標志和 OpenCV 檢測眨眼

首先,打開一個新文件並將其命名為 detect_blinks.py 。 從那裡,插入以下代碼:

# import the necessary packages
from scipy.spatial import distance as dist
from imutils.video import FileVideoStream
from imutils.video import VideoStream
from imutils import face_utils
import numpy as np
import argparse
import imutils
import time
import dlib
import cv2

導入必要的庫。

如果您的系統上沒有安裝 imutils(或者如果您使用的是舊版本),請確保使用以下命令安裝/升級:

pip install --upgrade imutils 

如果沒有安裝dlib,請參考文章

 接下來,我們將定義我們的 eye_aspect_ratio 函數:

def eye_aspect_ratio(eye):
	# compute the euclidean distances between the two sets of
	# vertical eye landmarks (x, y)-coordinates
	A = dist.euclidean(eye[1], eye[5])
	B = dist.euclidean(eye[2], eye[4])
	# compute the euclidean distance between the horizontal
	# eye landmark (x, y)-coordinates
	C = dist.euclidean(eye[0], eye[3])
	# compute the eye aspect ratio
	ear = (A + B) / (2.0 * C)
	# return the eye aspect ratio
	return ear

此函數接受單個必需參數,即給定眼睛的面部標志的 (x, y) 坐標。

計算兩組垂直眼睛界標之間的距離,然後計算水平眼睛界標之間的距離。

最後,結合瞭分子和分母以得出最終的眼睛縱橫比。

然後將眼睛縱橫比返回給調用函數。

讓我們繼續解析我們的命令行參數:

# construct the argument parse and parse the arguments
ap = argparse.ArgumentParser()
ap.add_argument("-p", "--shape-predictor", required=True,
	help="path to facial landmark predictor")
ap.add_argument("-v", "--video", type=str, default="",
	help="path to input video file")
args = vars(ap.parse_args())

我們的detect_blinks.py 腳本需要一個命令行參數,然後是第二個可選參數:

  1. –shape-predictor :這是 dlib 的預訓練面部標志檢測器的路徑。 您可以使用本博文底部的“下載”部分將檢測器以及源代碼 + 示例視頻下載到本教程中。
  2. –video :此可選開關控制駐留在磁盤上的輸入視頻文件的路徑。 如果您想使用實時視頻流,隻需在執行腳本時省略此開關即可。

我們現在需要設置兩個重要的常量,您可能需要為自己的實現進行調整,同時初始化另外兩個重要的變量,所以一定要註意這個解釋:

# 定義兩個常量,一個為眼睛縱橫比來表示
# 閃爍然後第二個常量為連續的次數
# 幀眼睛必須低於閾值
EYE_AR_THRESH = 0.3
EYE_AR_CONSEC_FRAMES = 3
# 初始化幀計數器和閃爍總數
COUNTER = 0
TOTAL = 0

在確定視頻流中是否發生眨眼時,我們需要計算眼睛縱橫比。

如果眼睛縱橫比低於某個閾值,然後又高於閾值,那麼我們將註冊一個“眨眼”——EYE_AR_THRESH 就是這個閾值。我們默認它的值為 0.3,因為這對我的應用程序最有效,但您可能需要為自己的應用程序調整它。

然後我們有一個重要的常量,EYE_AR_CONSEC_FRAME——這個值被設置為 3 以指示眼睛縱橫比小於 EYE_AR_THRESH 的三個連續幀必須發生,以便註冊眨眼。

同樣,根據管道的幀處理吞吐率,您可能需要為自己的實現提高或降低此數字。

第 44 和 45 行初始化兩個計數器。 COUNTER 是眼睛縱橫比小於 EYE_AR_THRESH 的連續幀的總數,而 TOTAL 是腳本運行時發生的眨眼總數。

現在我們的導入、命令行參數和常量都已經處理好瞭,我們可以初始化 dlib 的人臉檢測器和面部標記檢測器:

# 初始化dlib的人臉檢測器(基於HOG)然後創建
# 面部標志預測器
print("[INFO] loading facial landmark predictor...")
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor(args["shape_predictor"])

初始化實際的面部標志預測器。

dlib 生成的面部標志遵循可索引的列表,如下:

因此,我們可以確定開始和結束數組切片索引值,以便為下面的左眼和右眼提取 (x, y) 坐標:

# 獲取左側和面部標志的索引
# 右眼,分別 
(lStart, lEnd) = face_utils.FACIAL_LANDMARKS_IDXS["left_eye"]
(rStart, rEnd) = face_utils.FACIAL_LANDMARKS_IDXS["right_eye"]

使用這些索引,我們將能夠毫不費力地提取眼睛區域。

接下來,我們需要決定是使用基於文件的視頻流還是實時 USB/網絡攝像頭/Raspberry Pi 相機視頻流:

# start the video stream thread
print("[INFO] starting video stream thread...")
vs = FileVideoStream(args["video"]).start()
fileStream = True
# vs = VideoStream(src=0).start()
# vs = VideoStream(usePiCamera=True).start()
# fileStream = False
time.sleep(1.0)
fps = 30    #保存視頻的FPS,可以適當調整
size=(450,800)
videoWriter = cv2.VideoWriter('3.mp4',-1,fps,size)#最後一個是保存圖片的尺寸

如果您使用的是文件視頻流,則保留代碼原樣。

如果您想使用內置網絡攝像頭或 USB 攝像頭,請取消註釋# vs = VideoStream(src=0).start()。

對於 Raspberry Pi 攝像頭模塊,取消註釋# vs = VideoStream(usePiCamera=True).start()。

定義幀數。

定義大小

定義視頻寫入對象

最後,我們到達瞭腳本的主循環:

# loop over frames from the video stream
while True:
	# 如果這是一個文件視頻流,那麼我們需要檢查是否
	# 緩沖區中還有更多幀要處理
	if fileStream and not vs.more():
		break
	frame = vs.read()
	if frame is None:
        break
	frame = imutils.resize(frame, width=450)
	gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
	# 在灰度幀中檢測人臉
	rects = detector(gray, 0)

遍歷視頻流中的幀。

如果我們正在訪問一個視頻文件流並且視頻中沒有更多的幀,我們就會中斷循環。

從視頻流中讀取下一幀,然後調整其大小並將其轉換為灰度。

然後我們通過 dlib 的內置人臉檢測器檢測灰度幀中的人臉。

我們現在需要遍歷幀中的每個人臉,然後對每個人應用面部標志檢測:

	# loop over the face detections
	for rect in rects:
		# 確定面部區域的面部標志,然後
		# 將面部標志 (x, y) 坐標轉換為 NumPy數組
		shape = predictor(gray, rect)
		shape = face_utils.shape_to_np(shape)
		# 提取左右眼坐標,然後使用
		# 坐標來計算雙眼的眼睛縱橫比
		leftEye = shape[lStart:lEnd]
		rightEye = shape[rStart:rEnd]
		leftEAR = eye_aspect_ratio(leftEye)
		rightEAR = eye_aspect_ratio(rightEye)
		# 平均兩隻眼睛的眼睛縱橫比
		ear = (leftEAR + rightEAR) / 2.0

確定面部區域的面部標志,將這些 (x, y) 坐標轉換為 NumPy 數組。

使用本腳本前面的數組切片技術,我們可以分別提取左眼和右眼的 (x, y) 坐標。

然後,在第 96 和 97 行計算每隻眼睛的眼睛縱橫比。

按照 Soukupová 和 Čech 的建議,我們將兩隻眼睛的縱橫比平均在一起以獲得更好的眨眼估計(當然,假設一個人同時眨眼)。

我們的下一個代碼塊隻是處理眼睛區域本身的面部標志的可視化:

		# 計算左眼和右眼的凸包,然後
		# 可視化每隻眼睛
		leftEyeHull = cv2.convexHull(leftEye)
		rightEyeHull = cv2.convexHull(rightEye)
		cv2.drawContours(frame, [leftEyeHull], -1, (0, 255, 0), 1)
		cv2.drawContours(frame, [rightEyeHull], -1, (0, 255, 0), 1)

在這一點上,我們已經計算瞭我們的(平均)眼睛縱橫比,但我們實際上還沒有確定是否發生瞭眨眼——這將在下一節中解決:

		# 檢查眼睛的縱橫比是否低於眨眼
		# 閾值,如果是,則增加閃爍幀計數器
		if ear < EYE_AR_THRESH:
			COUNTER += 1
		# 否則,眼睛縱橫比不低於眨眼
		# 臨界點
		else:
			# 如果眼睛閉上足夠多的次數
			# 然後增加閃爍的總數
			if COUNTER >= EYE_AR_CONSEC_FRAMES:
				TOTAL += 1
			# 重置眼框計數器
			COUNTER = 0

檢查眼睛縱橫比是否低於我們的眨眼閾值——如果是增加指示正在發生眨眼的連續幀的數量。

否則,處理眼睛縱橫比不低於眨眼閾值的情況。

在這種情況下,再次檢查以查看是否有足夠數量的連續幀包含低於我們預定義閾值的眨眼率。

如果檢查通過,我們增加閃爍的總次數。

然後我們重置連續閃爍的次數 COUNTER。

我們的最終代碼塊隻是處理在我們的輸出幀上繪制眨眼次數,以及顯示當前眼睛縱橫比:

		# 繪制幀上閃爍的總數以及
		# 計算出的幀的眼睛縱橫比
		cv2.putText(frame, "Blinks: {}".format(TOTAL), (10, 30),
			cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
		cv2.putText(frame, "EAR: {:.2f}".format(ear), (300, 30),
			cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 0, 255), 2)
 
	# show the frame
	cv2.imshow("Frame", frame)
	videoWriter.write(frame)
	key = cv2.waitKey(1) & 0xFF
 
	# if the `q` key was pressed, break from the loop
	if key == ord("q"):
		break
videoWriter.release()
# do a bit of cleanup
cv2.destroyAllWindows()
vs.stop()

眨眼檢測結果

要將我們的眨眼檢測器應用於示例視頻,隻需執行以下命令:

python detect_blinks.py --shape-predictor shape_predictor_68_face_landmarks.dat --video 11.mp4

測試結果:

測試視頻鏈接:

眨眼檢測

如果測試攝像頭則,如下操作:

#vs = FileVideoStream(args["video"]).start()
#fileStream = True
vs = VideoStream(src=0).start()
# vs = VideoStream(usePiCamera=True).start()
fileStream = False

註釋FileVideoStream,取消註釋VideoStream。

執行命令:

python detect_blinks.py --shape-predictor shape_predictor_68_face_landmarks.dat

總結

在這篇博文中,我演示瞭如何使用 OpenCV、Python 和 dlib 構建眨眼檢測器。

構建眨眼檢測器的第一步是執行面部標志檢測,以定位視頻流中給定幀中的眼睛。

一旦我們有瞭雙眼的面部標志,我們就計算每隻眼睛的眼睛縱橫比,這給瞭我們一個奇異值,將垂直眼睛標志點之間的距離與水平標志點之間的距離聯系起來。

一旦我們有瞭眼睛縱橫比,我們就可以確定一個人是否在眨眼——眼睛縱橫比在睜眼時將保持大致恒定,然後在眨眼時迅速接近零,然後隨著眼睛睜開再次增加.

為瞭改進我們的眨眼檢測器,Soukupová 和 Čech 建議構建一個 13 維的眼睛縱橫比特征向量(第 N 幀、N – 6 幀和 N + 6 幀),然後將該特征向量輸入線性 SVM分類。

通過這篇博文你還學會瞭如何保存視頻。

眨眼檢測的一個應用場景是睡意檢測。

完整的代碼,提取碼:k653

以上就是基於Python OpenCV和 dlib實現眨眼檢測的詳細內容,更多關於Python OpenCV dlib眨眼檢測的資料請關註WalkonNet其它相關文章!

推薦閱讀: