python通過pillow識別動態驗證碼的示例代碼

生活中,我們在登錄微博,郵箱的時候,常常會碰到驗證碼。在工作時,如果想要爬取一些數據,也會碰到驗證碼的阻礙。本次試驗將帶領大傢認識驗證碼的一些特性,並利用 Python 中的 pillow 庫完成對驗證碼的破解。

環境配置

  • Python 2.7
  • Pillow 模塊

有個問題就是python2.7目前隻能讓使用到2020年,現在再利用2.7下載好多東西都會報錯,也該是時候更新到python3.7瞭,本文還是依賴於2.7的環境。

在這裡插入圖片描述

識別驗證碼的代碼下載地址:python_captcha_jb51.rar

 安裝 pillow(PIL)庫

sudo apt-get update
sudo apt-get install python-dev libtiff5-dev libjpeg8-dev zlib1g-dev libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk
sudo pip2 install pillow

識別過程

將驗證碼文件python_captcha下載到運行目錄下,解壓後,在 python_captcha 目錄新建 crack.py 文件,進行編輯。

#-*- coding:utf8 -*-
from PIL import Image

im = Image.open("captcha.gif")
#(將圖片轉換為8位像素模式)
im.convert("P")

# 打印顏色直方圖
print im.histogram()

輸出:

在這裡插入圖片描述

顏色直方圖的每一位數字都代表瞭在圖片中含有對應位的顏色的像素的數量。

每個像素點可表現 256 種顏色,你會發現白點是最多(白色序號 255 的位置,也就是最後一位,可以看到,有 625 個白色像素)。紅像素在序號 200 左右,我們可以通過排序,得到有用的顏色。

his = im.histogram()
values = {}

for i in range(256):
    values[i] = his[i]

for j,k in sorted(values.items(),key=lambda x:x[1],reverse = True)[:10]:
    print j, k

輸出:

在這裡插入圖片描述

我們得到瞭圖片中最多的 10 種顏色,其中 220 與 227 才是我們需要的紅色和灰色,可以通過這一訊息構造一種黑白二值圖片。

#-*- coding:utf8 -*-
from PIL import Image

im = Image.open("captcha.gif")
im.convert("P")
im2 = Image.new("P",im.size,255)


for x in range(im.size[1]):
    for y in range(im.size[0]):
        pix = im.getpixel((y,x))
        if pix == 220 or pix == 227: # these are the numbers to get
            im2.putpixel((y,x),0)

im2.show()

輸出:

在這裡插入圖片描述

局限及遇到的問題

#-*- coding:utf8 -*-

此行命令流在windows環境下運行會報錯,具體原因可參考python(2)中文編碼亂碼問題;

該命令流有很大的局限性,識別的動態代買也隻有此類:

在這裡插入圖片描述

到此這篇關於python通過pillow識別動態驗證碼的示例代碼的文章就介紹到這瞭,更多相關python pillow識別動態驗證碼內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: