python網絡爬蟲實現發送短信驗證碼的方法
前言:今天要總結的是如何用程序來實現短信發送功能。但是呢,可能需要我們調用一些api接口,我會詳細介紹。都是自己學到的,害怕忘記,所以要總結一下,讓寫博客成為一種堅持的信仰。廢話不多說,我們開始吧!
網絡爬蟲實現發送短信驗證碼
在實現我們目標的功能之前,我們要有自己的思路,否則你沒有方向,又如何實現自己的代碼功能呢?
我們要發送短信,那麼我們其實是需要分析的。我們可以去分析一個可以發送短信的網站頁面。
我們來到這裡如下:
可以看到這是一個註冊界面,我們在註冊時會被要求需要填寫手機號碼的·,其實還有一欄驗證碼識別,像這裡打開沒有,那你就填寫幾個號碼,發送,多刷新幾次,就可以瞭。
不為別人添麻煩,我填寫自己的號碼。
多次刷新會出現,不過要填寫不同的手機號碼。你們懂的,我們要看到這個有驗證碼的界面。
我們打開chrome谷歌抓包工具,也就是郵件檢查即可。我們點擊network直接進行抓包,記得在抓包前最好清除下面出現的一切包。我們要點擊驗證碼,讓網頁做出反應,然後同步一下,進行抓包。
當我們填寫手機號以後,我們隻要點擊那個驗證碼,然後進行抓包如下
看到沒有,其實點擊同步瞬間隻有一個數據包的,在你做其他的動作時,可能會出現其他的數據包,但是與此無關。
我們直接點進去看
我們看這個url
https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time=1613969346256
我們打開這個url看看廬山真面目
留意觀察這個time參數,很明顯是一個時間戳參數
時間戳參數又是什麼概念呢?這裡有必要介紹一下
時間戳 : 格林威治時間1970年1月0點0分0秒到目前為止
秒級時間戳:10數字
毫秒級時間戳 :13位數字
微秒級時間戳:16位數字
可以看到這個time參數屬於毫秒級別的時間戳的。
我們訪問這個見面,每次刷新都會有不同的驗證碼,返回當前的時間。如果我們要獲取當前的驗證碼,我們需要url,前面的參數都一樣,隻有time,我們需要獲取time時間。如何獲取呢。
python中有一個time庫,我們導入,來看如何使用。
下面展示一些 內聯代碼片
。
import time def get_time() : " 獲取當前的時間戳" now_time =str(int(time.time()*1000))#獲取毫秒級的時間戳 print('當前的時間戳',now_time) return now_time get_time()
來看運行結果
我們目前可以這樣去做
我們把這個獲取到的時間戳參數加入到url中,我們可以實現動態的獲取,每次要要獲取這個二維碼時就需要指定當前的時間time參數,那我們完全可以這樣來構造這個url。我們用一個變量來接收獲取的時間戳,然後以字符串的形式加入到time後面。
下面展示一些 內聯代碼片
。
import time def get_time() : " 獲取當前的時間戳" now_time =str(int(time.time()*1000))#獲取毫秒級的時間戳 print('當前的時間戳',now_time) return now_time time_one = get_time() img_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time='+time_one print(img_url)
我們來看是否可以獲取到相應正確的url
我們點入那個藍色的鏈接,來看有沒有獲取到這個驗證碼圖片。
測試證明我們完全是對的。
下一步我們要做的是實現代碼的訪問,獲取並保存這個驗證碼。為什麼保存,我們應該知道這點知識。
看這三個提交欄,很明顯是一個要提交表單的。提交那就需要post,而post請求呢,就是要提交我們的數據,及手機號碼和圖形驗證碼。
當我們把數據提交上去以後,我們在手機上就會收到短信驗證碼。我們以此來實現發送短信驗證碼的功能。
我們來保存圖片驗證碼
下面展示一些 內聯代碼片
。
import time import requests def get_time() : " 獲取當前的時間戳" now_time =str(int(time.time()*1000))#獲取毫秒級的時間戳 print('當前的時間戳',now_time) return now_time time_one = get_time() img_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time='+time_one print(img_url) headers = { 'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36' } response = requests.get(url=img_url,headers = headers) img_data = response.content with open('yzm.jpg',mode = 'wb') as file : file.write(img_data)
可以看到在代碼編輯器右邊已經出現瞭保存的圖片。
下一步我們繼續來分析這個手機號碼的數據和圖片驗證碼的數據在哪裡傳入,又是如何實現。
我們輸入一個手機號碼,然後輸入圖片驗證碼,然後點擊免費獲取。此時再次進行抓包,抓包的方法與上文的第一次抓包方法相同。
我們來看會出現什麼樣的包。
藍色部分的就是我們尋找的目標包。然後我們如何去做?點擊打開查看相應的代碼。
看到沒有post請求,是因該提交表單數據的。我們看看下面的表單數據
這裡你會發現有一點不同電話號碼是直接的數字,圖片驗證碼就需要你來處理瞭,因為我們上文保存的驗證碼是圖片,你如何識別到這圖片驗證碼裡面額數據,來進行傳入呢?這裡我們還需要一個網站。
超級鷹,是用來識別驗證碼的,其實我們還是調用這個接口。
我們點擊開發文檔,我們是用Python寫的代碼。所以我們點擊python的圖標,來這裡來查看我們需要的。
在下面找到超級鷹圖像識別,然後點擊下載。把裡面的api接口的py文件導入到你的python編輯器。我這裡是用Pycharm寫的。所以直接將解壓出來的Python文件拖入pycharm。
下面是裡面的部分代碼。
這裡面做瞭小小的修改。我們直接來看這段代碼寫瞭什麼。
我來告訴大傢原始的代碼有問題,很低級的問題。
#!/usr/bin/env python # coding:utf-8 import requests from hashlib import md5 class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username password = password.encode('utf8') self.password = md5(password).hexdigest() self.soft_id = soft_id self.base_params = { 'user': self.username, 'pass2': self.password, 'softid': self.soft_id, } self.headers = { 'Connection': 'Keep-Alive', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)', } def PostPic(self, im, codetype): """ im: 圖片字節 codetype: 題目類型 參考 http://www.chaojiying.com/price.html """ params = { 'codetype': codetype, } params.update(self.base_params) files = {'userfile': ('ccc.jpg', im)} r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers) return r.json() def ReportError(self, im_id): """ im_id:報錯題目的圖片ID """ params = { 'id': im_id, } params.update(self.base_params) r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers) return r.json() if __name__ == '__main__': chaojiying = Chaojiying_Client('超級鷹用戶名', '超級鷹用戶名的密碼', '96001') #用戶中心>>軟件ID 生成一個替換 96001 im = open('a.jpg', 'rb').read() #本地圖片文件路徑 來替換 a.jpg 有時WIN系統須要// print chaojiying.PostPic(im, 1902) #1902 驗證碼類型 官方網站>>價格體系 3.4+版 print 後要加()
上面這個是他的原始接口代碼。就很離譜。分塊來分析。
def __init__(self, username, password, soft_id): self.username = username password = password.encode('utf8')#沒有縮進 self.password = md5(password).hexdigest() self.soft_id = soft_id ....... .......
這塊的錯誤在哪呢?我這裡特意表明突出,上面的原始代碼直接沾到這裡並不突出,但是你用編輯器打開會有問題的。
if __name__ == '__main__': chaojiying = Chaojiying_Client('超級鷹用戶名', '超級鷹用戶名的密碼', '96001') #用戶中心>>軟件ID 生成一個替換 96001 im = open('a.jpg', 'rb').read() #本地圖片文件路徑 來替換 a.jpg 有時WIN系統須要// print chaojiying.PostPic(im, 1902) #print沒有加 () #1902 驗證碼類型 官方網站>>價格體系 3.#4+版 print 後要加()
還有一處,在這裡,代碼格式都沒有寫對,我這裡指出,讀者應該可以發現。這裡介意讀者可以去平臺下載這個接口,自己去修改。
好,且不在談這些,我們繼續。我們還是修改部分代碼。
def ReportError(self, im_id): """ im_id:報錯題目的圖片ID """ params = { 'id': im_id, } params.update(self.base_params) r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers) return r.json() if __name__ == '__main__': chaojiying = Chaojiying_Client('超級鷹用戶名', '超級鷹用戶名的密碼', '96001') #用戶中心>>軟件ID 生成一個替換 96001 im = open('a.jpg', 'rb').read() #本地圖片文件路徑 來替換 a.jpg 有時WIN系統須要// print chaojiying.PostPic(im, 1902) #這是原始的代碼 #1902 驗證碼類型 官方網站>>價格體系 3.4+版 print 後要加()
我們可以在這內部寫一個方法,我們待會要調用這個代碼接口時,直接調用這個方法。
註意我們在類裡面添加這樣一部分代碼,就是寫一個方法
def run(self): chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD, 913137) # 用戶中心>>軟件ID 生成一個替換 96001 im = open('yzm.jpg', 'rb').read() # 本地圖片文件路徑 來替換 a.jpg 有時WIN系統須要// result = chaojiying.PostPic(im, 1004) # 1902 驗證碼類型 官方網站>>價格體系 3.4+版 print 後要加() return result['pic_str']
註意分析這個接口代碼,裡面 chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD,913137)
在註釋裡面其實說的已經很清楚瞭,這裡的constant代表我們要導入的py文件,裡面包含你的用戶名,密碼,以及軟件id。
im = open(‘yzm.jpg', ‘rb').read()
打開你保存的驗證碼文件,上面我們已經保存過。
result = chaojiying.PostPic(im, 1004)
1004代表你的驗證碼類型。
用戶名和密碼你需要註冊一下。那麼軟件id和驗證碼類型你該如何確定呢?
這是主頁,請點擊價格體系
在下面你可以來判斷你的驗證碼類型瞭
我們這裡需要登錄進入用戶中心
進入如下界面
往下拉進入軟件id
進入後點擊生成一個軟件id,軟件名稱和軟件說明可以隨便填寫
這樣我們就可以獲得一個軟件id 。
這個constant如何編寫,很簡單,建立一個py文件,裡面寫入
USER_NAME=' …' PASSWORD='… '
然後保存即可。導入py文件到當前路勁,然後import即可。
現在我們來看完整的代碼
接口完整修改後的代碼
import requests from hashlib import md5 import constant import constant class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username self.password = md5(password.encode('utf8')).hexdigest() self.soft_id = soft_id self.base_params = { 'user': self.username, 'pass2': self.password, 'softid': self.soft_id, } self.headers = { 'Connection': 'Keep-Alive', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)', } def PostPic(self, im, codetype): """ im: 圖片字節 codetype: 題目類型 參考 http://www.chaojiying.com/price.html """ params = { 'codetype': codetype, } params.update(self.base_params) files = {'userfile': ('ccc.jpg', im)} r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers) return r.json() def ReportError(self, im_id): """ im_id:報錯題目的圖片ID """ params = { 'id': im_id, } params.update(self.base_params) r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers) return r.json() def run(self): chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD, 913137) # 用戶中心>>軟件ID 生成一個替換 96001 im = open('yzm.jpg', 'rb').read() # 本地圖片文件路徑 來替換 a.jpg 有時WIN系統須要// result = chaojiying.PostPic(im, 1004) # 1902 驗證碼類型 官方網站>>價格體系 3.4+版 print 後要加() return result['pic_str'] if __name__ == '__main__': chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD, 913137) # 用戶中心>>軟件ID 生成一個替換 96001 im = open('yzm.jpg', 'rb').read() # 本地圖片文件路徑 來替換 a.jpg 有時WIN系統須要// result = chaojiying.PostPic(im, 1004) print(chaojiying.PostPic(im,1004))# 1902 驗證碼類型 官方網站>>價格體系 3.4+版 print 後要加()
主文件代碼,從這裡執行
import time import requests from chaojiying import Chaojiying_Client import constant def get_time() : " 獲取當前的時間戳" now_time =str(int(time.time()*1000))#獲取毫秒級的時間戳 print('當前的時間戳',now_time) return now_time time_one = get_time() img_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time='+time_one print(img_url) headers = { 'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36' } response = requests.get(url=img_url,headers = headers) img_data = response.content with open('yzm.jpg',mode = 'wb') as file : file.write(img_data) print(response) #驗證碼識別 code = Chaojiying_Client(constant.USER_NAME,constant.PASSWORD,913137).run() print('識別出來的驗證碼為',code) #請求保證同一個用戶 cookiejar = response.cookies cookies = cookiejar.get_dict() print(cookies) data = { 'phone' :19745678397, 'imgValidCode' : code, } time_two = get_time() code_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/getsms.do?×tamp'+time_two requests_two = requests.post(url=code_url,data= data,headers=headers,cookies=cookies) print(requests_two.json())
我們來看運行結果
ok,短信發送成功
需要註意的是,如果你發送多次的話,那麼會出現提醒你短信發送頻率過高的提示。這是服務器的響應。
我們總結一下該程序實現瞭發送驗證碼的功能,如果你需要實現發送你想要的文本,那麼你需要調用其它的接口。別的就不多說瞭,畢竟爬蟲也需要講武德。
到此這篇關於python網絡爬蟲實現發送短信驗證碼的方法的文章就介紹到這瞭,更多相關python爬蟲發送短信驗證碼內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- selenium+超級鷹實現模擬登錄12306
- Python中常見的反爬機制及其破解方法總結
- Python Http發送請求淺析
- Python爬蟲學習之requests的使用教程
- Python中WebService客戶端接口調用及身份驗證的問題