Python+MediaPipe實現檢測人臉功能詳解

MediaPipe概述

谷歌開源MediaPipe於2019年6月首次推出。它的目標是通過提供一些集成的計算機視覺和機器學習功能,使我們的生活變得輕松。

MediaPipe是用於構建多模態(例如視頻、音頻或任何時間序列數據)、跨平臺(即eAndroid、IOS、web、邊緣設備)應用ML管道的框架。

Mediapipe還促進瞭機器學習技術在各種不同硬件平臺上的演示和應用程序中的部署。

應用

  • 人臉檢測
  • 多手跟蹤
  • 頭發分割
  • 目標檢測與跟蹤
  • 目標:三維目標檢測與跟蹤
  • AutoFlip:視頻裁剪管道
  • 其他

為什麼需要MediaPipe

有效管理資源(CPU和GPU)以實現低延遲性能,處理時間序列數據(如音頻和視頻幀)的同步。

MediaPipe將每個感知模型抽象為一個模塊,並將它們與維護圖連接起來。

除上述功能外,MediaPipe還支持TensorFlow和TF Lite推理引擎。任何TensorFlow和TF Lite模型均可用於MediaPipe。同時,在移動和嵌入式平臺上,MediaPipe還支持設備本身的GPU加速。

現在是時候向MediaPipe的應用邁進瞭,人臉檢測。

人臉檢測

考慮一個場景,“零售商要求你計算訪客數量,並跟蹤訪客的移動。”

看起來很難!!我們怎樣才能解決這個問題?嗯…

哦,是的!我們將使用人臉檢測來解決這個問題。

人臉檢測是計算機視覺中的一個問題,即在照片中定位和定位一個或多個人臉。

問題的一般陳述可以定義如下:給定一幅靜止或視頻圖像,檢測並定位未知數量(如果有)的人臉。

使用MediaPipe執行人臉檢測:

要執行人臉檢測,可以使用三種模型:

  • 近景模型(最適合距離相機2米以內的人臉)
  • 全范圍模型(密集型,最適合距離相機5米以內的人臉)
  • 全范圍模型(稀疏,最適合距離相機5米以內的人臉)

全范圍密集模型和稀疏模型在F分數方面具有相同的質量,但在基礎度量方面有所不同。

密集型模型的召回率略高於稀疏模型,而稀疏模型的精確度高於稠密模型。

現在是時候使用MediaPipe的人臉檢測模型瞭。

安裝必要的庫

要執行人臉檢測,首先必須在機器中安裝MediaPipe。如果你是windows用戶,則可以在計算機的命令提示符下運行以下代碼。

pip install mediapipe

有關詳細說明,你可以訪問以下鏈接:

https://google.github.io/mediapipe/getting_started/python.html

你還需要為網絡攝像頭或圖像輸入安裝OpenCV。如果你是windows用戶,可以在命令提示符下運行以下代碼。

pip install opencv-python

有關詳細說明,你可以訪問以下鏈接:

https://pypi.org/project/opencv-python/

編寫代碼以瞭解API的使用:

我們使用Google Colab來運行代碼。你可以選擇使用它。

我們需要cv2,能夠讀取和顯示圖像,以及MediaPipe模塊,它公開瞭我們執行人臉檢測所需的功能

import cv2
import mediapipe as mp

然後我們將訪問兩個子模塊face_detection和drawing_utils。人臉檢測用於加載所有功能以執行人臉檢測,而繪圖工具用於在圖像上繪制檢測到的人臉。

mp_face_detection = mp.solutions.face_detection
mp_drawing = mp.solutions.drawing_utils

是時候深入研究代碼瞭。首先,我們將圖像作為輸入。這裡我們使用兩種類型的圖像

(i) 包含2米以內的人臉的圖像

(ii)包含5米以內的人臉的圖像。

我們使用colab中的文件直接從本地目錄加載圖像。你也可以使用cv2.imread用於在本地計算機中工作時加載圖像。

(a) 第一張照片

from google.colab import files
 
uploaded_short_range = files.upload()

(b) 第二張照片

from google.colab import files
 
uploaded_full_range = files.upload()

在本地PC上工作時,你可以使用

cv2.imread() # 獲取輸入

單擊此處瞭解有關cv2.imread:

現在我們將調整圖像大小並顯示圖像。為瞭顯示圖像,我們必須使用colab或cv2的cv2_imshow模塊。

在本地機器中工作時顯示cv2.imshow(frame name, iamge)。我們可以使用下面的代碼在google colab中調整圖像大小並顯示圖像。

用於調整圖像大小和顯示圖像的代碼:

import cv2
from google.colab.patches import cv2_imshow
import math
import numpy as np
 
DESIRED_HEIGHT = 480
DESIRED_WIDTH = 480
def resize_and_show(image):
  h, w = image.shape[:2]
  if h < w:
    img = cv2.resize(image, (DESIRED_WIDTH, math.floor(h/(w/DESIRED_WIDTH))))
  else:
    img = cv2.resize(image, (math.floor(w/(h/DESIRED_HEIGHT)), DESIRED_HEIGHT))
  cv2_imshow(img)
 

# 預覽圖片.
 
short_range_images = {name: cv2.imread(name) 
for name in uploaded_short_range.keys()}
for name, image in short_range_images.items():
  print(name)   
  resize_and_show(image)
 
 
full_range_images = {name: cv2.imread(name) 
for name in uploaded_full_range.keys()}
for name, image in full_range_images.items():
  print(name)   
 
  resize_and_show(image)

上述代碼的輸出示例

現在,我們將在臉上畫關鍵點。

我們可以如下更改thickness和circle_radius的值。

drawing_spec = mp_drawing.DrawingSpec(thickness=1, circle_radius=1)

以下代碼瞭解mp.solutions.face_detection的詳細信息。

help(mp_face_detection.FaceDetection)

在此之後,我們將創建一個FaceDetection類的對象。該對象將允許我們處理圖像並執行人臉關鍵點檢測。此類的構造函數支持以下參數:

(i) 模型選擇:整數索引0或1。使用0選擇最適合距離攝影機2米以內的面的短距離模型,使用1選擇最適合距離攝影機5米以內的面的全范圍模型。對於全范圍選項,稀疏模型用於提高推理速度。

(ii)最小檢測置信度:人臉檢測模型中的最小置信值([0.0,1.0]),檢測成功。默認值為0.5。

with mp_face_detection.FaceDetection(min_detection_confidence=0.5, model_selection=0) as face_detection:

上面的代碼model_selection=0,這意味著我們選擇短距離模型進行人臉檢測。使用下面的代碼,我們使用一個簡短的圖像模型執行最終的人臉檢測,並繪制關鍵點。

# 運行MediaPipe人臉檢測與近距離模型
 
with mp_face_detection.FaceDetection(
    
    min_detection_confidence=0.5, model_selection=0) as face_detection:
        
  for name, image in short_range_images.items():
    # 將BGR圖像轉換為RGB,並使用MediaPipe人臉檢測進行處理。
 
    results = face_detection.process(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
 
    # 繪制每個人臉的檢測。
    print(f'Face detections of {name}:')
    
    if not results.detections:
        
      continue
    annotated_image = image.copy()

    for detection in results.detections:
 
      mp_drawing.draw_detection(annotated_image, detection)
 
    resize_and_show(annotated_image)

短長度(2米以內)圖像的人臉檢測模型

現在對於model_selection=1,這意味著我們選擇人臉檢測全范圍模型。使用下面的代碼,我們使用完整的圖像模型執行最終的人臉檢測,並繪制關鍵點。

with mp_face_detection.FaceDetection(
 
    min_detection_confidence=0.5, model_selection=1) as face_detection:
 
  for name, image in full_range_images.items():
    # 將BGR圖像轉換為RGB,並使用MediaPipe人臉檢測進行處理。
    results = face_detection.process(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
    # 繪制每個人臉的檢測。
    print(f'Face detections of {name}:')
 
    if not results.detections:
 
      continue
 
    annotated_image = image.copy()
 
    for detection in results.detections:
 
      mp_drawing.draw_detection(annotated_image, detection)
 
    resize_and_show(annotated_image)

全范圍(5米以內)圖像的人臉檢測模型

我們還可以使用全范圍人臉檢測模型的代碼對集體照片執行此過程。

下面關於algoscale的文章將向你展示使用OpenCV和MediaPipe姿勢估計。

使用OpenCV和MediaPipe進行訓練姿勢估計:

Workout Pose Estimation using OpenCV and MediaPipe

到此這篇關於Python+MediaPipe實現檢測人臉功能詳解的文章就介紹到這瞭,更多相關Python MediaPipe檢測人臉內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: