python爬蟲破解字體加密案例詳解
本次案例以爬取起小點小說為例
案例目的:
通過爬取起小點小說月票榜的名稱和月票數,介紹如何破解字體加密的反爬,將加密的數據轉化成明文數據。
程序功能:
輸入要爬取的頁數,得到每一頁對應的小說名稱和月票數。
案例分析: 找到目標的url:
(右鍵檢查)找到小說名稱所在的位置:
通過名稱所在的節點位置,找到小說名稱的xpath語法:
(右鍵檢查)找到月票數所在的位置:
由上圖發現,檢查月票數據的文本,得到一串加密數據。
我們通過xpathhelper進行調試發現,無法找到加密數據的語法。因此,需要通過正則表達式進行提取。
通過正則進行數據提取。
正則表達式如下:
得到的加密數據如下:
破解加密數據是本次案例的關鍵:
既然是加密數據,就會有加密數據所對應的加密規則的Font文件。
通過找到Font字體文件中數據加密文件的url,發送請求,獲取響應,得到加密數據的woff文件。
註:我們需要的woff文件,名稱與加密月票數前面的class屬性相同。
如下圖,下載woff文件:
找到16進制的數字對應的英文數字。
其次,我們需要通過第三方庫TTFont將文件中的16進制數轉換成10進制,將英文數字轉換成阿拉伯數字。如下圖:
解析出每個加密數據對應的對應的月票數的數字如下:
註意:
由於我們在上面通過正則表式獲得的加密數據攜帶特殊符號
因此解析出月票數據中的數字之後,除瞭將特殊符號去除,還需把每個數字進行拼接,得到最後的票數。
最後,通過對比不同頁的url,找到翻頁的規律:
對比三個不同url發現,翻頁的規律在於參數page
所以問題分析完畢,開始代碼:
import requests from lxml import etree import re from fontTools.ttLib import TTFont import json if __name__ == '__main__': # 輸入爬取的頁數、 pages = int(input('請輸入要爬取的頁數:')) # eg:pages=1,2 for i in range(pages): # i=0,(0,1) page = i+1 # 1,(1,2) # 確認目標的url url_ = f'https://www.qidian.com/rank/yuepiao?page={page}' # 構造請求頭參數 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36' } # 發送請求,獲取響應 response_ = requests.get(url_,headers=headers) # 響應類型為html問文本 str_data = response_.text # 將html文本轉換成python文件 py_data = etree.HTML(str_data) # 提取文本中的目標數據 title_list = py_data.xpath('//h4/a[@target="_blank"]/text() ') # 提取月票數,由於利用xpath語法無法提取,因此換用正則表達式,正則提取的目標為response_.text mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data) print(mon_list) # 獲取字體反爬woff文件對應的url,xpath配合正則使用 fonturl_str = py_data.xpath('//p/span/style/text()') font_url = re.findall(r"format\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0] print(font_url) # 獲得url之後,構造請求頭獲取響應 headers_ = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36', 'Referer':'https://www.qidian.com/' } # 發送請求,獲取響應 font_response = requests.get(font_url,headers=headers_) # 文件類型未知,因此用使用content格式 font_data = font_response.content # 保存到本地 with open('加密font文件.woff','wb')as f: f.write(font_data) # 解析加密的font文件 font_obj = TTFont('加密font文件.woff') # 將文件轉成明文的xml文件 font_obj.saveXML('加密font文件.xml') # 獲取字體加密的關系映射表,將16進制轉換成10進制 cmap_list = font_obj.getBestCmap() print('字體加密關系映射表:',cmap_list) # 創建英文轉英文的字典 dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6', 'seven':'7','eight':'8','nine':'9','zero':'0'} # 將英文數據進行轉換 for i in cmap_list: for j in dict_e_a: if j == cmap_list[i]: cmap_list[i] = dict_e_a[j] print('轉換為阿拉伯數字的映射表為:',cmap_list) # 去掉加密的月票數據列表中的符號 new_mon_list = [] for i in mon_list: list_ = re.findall(r'\d+',i) new_mon_list.append(list_) print('去掉符號之後的月票數據列表為:',new_mon_list) # 最終解析月票數據 for i in new_mon_list: for j in enumerate(i): for k in cmap_list: if j[1] == str(k): i[j[0]] = cmap_list[k] print('解析之後的月票數據為:',new_mon_list) # 將月票數據進行拼接 new_list = [] for i in new_mon_list: j = ''.join(i) new_list.append(j) print('解析出的明文數據為:',new_list) # 將名稱和對應的月票數據放進字典,並轉換成json格式及進行保存 for i in range(len(title_list)): dict_ = {} dict_[title_list[i]] = new_list[i] # 將字典轉換成json格式 json_data = json.dumps(dict_,ensure_ascii=False)+',\n' # 將數據保存到本地 with open('翻頁起小點月票榜數據爬取.json','a',encoding='utf-8')as f: f.write(json_data)
爬取瞭兩頁的數據,每一頁包含20個數據
執行結果如下:
到此這篇關於python爬蟲破解字體加密案例詳解的文章就介紹到這瞭,更多相關python爬蟲破解字體加密內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- python起點網月票榜字體反爬案例
- python政策網字體反爬實例(附完整代碼)
- 教你如何利用python3爬蟲爬取漫畫島-非人哉漫畫
- Python用requests模塊實現動態網頁爬蟲
- Python爬蟲之requests庫基本介紹