python起點網月票榜字體反爬案例
前言:
字體反爬是什麼個意思?就是網站把自己的重要數據不直接的在源代碼中呈現出來,而是通過相應字體的編碼,與一個字體文件(一般後綴為ttf或woff)把相應的編碼轉換為自己想要的數據,知道瞭原理,接下來開始展示才藝
1.解析過程
老規矩哈我們先進入起點月票榜f12調試,找到書名與其對應的月票數據所在,使用xpath嘗試提取
可以看到剛剛好20條數據,接下來找月票數據:
這是什麼鬼xpath檢索出來20條數據但是數據為空,element中數據顯示為未知符號,這貌似沒有數據呀,這時我們觀察源代碼,搜索關鍵字font-face可以看到這種看不懂的編碼,這就是前言中所說的字體的編碼。
我們接下來找字體文件數據包
woff文件並且請求地址與這上面看到的地址一樣,不過這裡需要註意的是每次請求地址都不一樣,文件名字也不一樣,所以我們需要每爬取一次都要單獨爬取一次字體加密數據,字體加密數據可以使用第三方庫fonttools進行解析
我們現在擁有:
1.書名
2.月票數據的密文
3.月票數據密文對應的字體文件
2.開始敲代碼
首先定義獲取書名的函數get_book_name並進行測試:
import requests from lxml import etree def get_book_name(xml_obj): name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()") return name_list if __name__ == '__main__': # 設置我們通用的請求頭,避免被反爬攔截 headers_ = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'referer': 'https://www.qidian.com/rank/', 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1' } url_ = 'https://www.qidian.com/rank/yuepiao/' # 請求網頁源代碼 str_data = requests.get(url_, headers=headers_).text # 使用xpath解析書名 xml_obj = etree.HTML(str_data) print(get_book_name(xml_obj)) # ['從紅月開始', '人族鎮守使', '全屬性武道', '深空彼岸', '我的雲養女友', '我用閑書成聖人', '明克街13號', '星門', '東晉北府一丘八', '夜的命名術', '這個人仙太過正經', '頂級氣運,悄悄修煉千年', '不科學禦獸', '我的治愈系遊戲', '這遊戲也太真實瞭', '長夜餘火', '赤心巡天', '輪回樂園', '合道', '宇宙職業選手']
2.請求月票數據密文,並進行測試:
import re import requests from lxml import etree # 獲取書名 def get_book_name(xml_obj): name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()") return name_list # 獲取月票加密數據 def get_yuepiao(str_data): # 這裡我們之前分析發現xpath取出來的數據是空值,我們直接對網頁源代碼使用re正則匹配獲取加密數據 yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data) return yuepiao_list if __name__ == '__main__': # 設置我們通用的請求頭,避免被反爬攔截 headers_ = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'referer': 'https://www.qidian.com/rank/', 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1' } url_ = 'https://www.qidian.com/rank/yuepiao/' # 請求網頁源代碼 str_data = requests.get(url_, headers=headers_).text # 使用xpath解析書名 xml_obj = etree.HTML(str_data) print(get_book_name(xml_obj)) # ['從紅月開始', '人族鎮守使', '全屬性武道', '深空彼岸', '我的雲養女友', '我用閑書成聖人', '明克街13號', '星門', '東晉北府一丘八', '夜的命名術', '這個人仙太過正經', '頂級氣運,悄悄修煉千年', '不科學禦獸', '我的治愈系遊戲', '這遊戲也太真實瞭', '長夜餘火', '赤心巡天', '輪回樂園', '合道', '宇宙職業選手'] print(get_yuepiao(str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']
3.獲取字體加密文件裡的對應關系:
安裝fonttools庫
由於第一次使用fonttools庫,在使用時遇到瞭以下錯誤 查詢百度得知可能是由於字體文件名字有誤,把名稱換成url上面帶的就成功的提取出來鍵值對瞭
(也可能是我使用re正則提取font_url時候不規范造成url錯誤)
隻是這個鍵值對怎麼編碼對應英文,程序員為何為難程序員呢,不說瞭我們要定義一個英語與阿拉伯數字對應的字典進行對英文的替換
def get_font(xml_obj, headers_): # 使用xpath與re獲取字體加密數據包地址 font_div = xml_obj.xpath("//span/style/text()")[0] font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0] font_name = str(font_url).rsplit('/', 1)[1] # 獲取font文件進行本地保存 font_data = requests.get(font_url, headers_).content with open(f'{font_name}', 'wb') as f: f.write(font_data) # 加載字體文件 font_data = TTFont(f'{font_name}') # font_data.saveXML('字體.xml') font_doct01 = font_data.getBestCmap() font_doct02 = { 'period': '.', 'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5', 'six': '6', 'seven': '7', 'eight': '8', 'nine': '9' } for i in font_doct01: font_doct01[i]=font_doct02[font_doct01[i]] return font_doct01
程序完美運行:
總代碼如下:
import re import requests from lxml import etree from fontTools.ttLib import TTFont # 獲取書名 def get_book_name(xml_obj): name_list = xml_obj.xpath("//div[@class='book-mid-info']/h4/a/text()") return name_list # 獲取月票加密數據 def get_yuepiao(str_data): # 這裡我們之前分析發現xpath取出來的數據是空值,我們直接對網頁源代碼使用re正則匹配獲取加密數據 yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data) return yuepiao_list def get_font(xml_obj, headers_): # 使用xpath與re獲取字體加密數據包地址 font_div = xml_obj.xpath("//span/style/text()")[0] font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0] font_name = str(font_url).rsplit('/', 1)[1] # 獲取font文件進行本地保存 font_data = requests.get(font_url, headers_).content with open(f'{font_name}', 'wb') as f: f.write(font_data) # 加載字體文件 font_data = TTFont(f'{font_name}') # font_data.saveXML('字體.xml') font_doct01 = font_data.getBestCmap() font_doct02 = { 'period': '.', 'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5', 'six': '6', 'seven': '7', 'eight': '8', 'nine': '9' } for i in font_doct01: font_doct01[i] = font_doct02[font_doct01[i]] return font_doct01 def jiemi(miwen_list, font_list): yuepiao = [] for i in miwen_list: num = '' mw_list=re.findall('&#(.*?);', i) for j in mw_list: num += font_list[int(j)] yuepiao.append(int(num)) return yuepiao if __name__ == '__main__': # 設置我們通用的請求頭,避免被反爬攔截 headers_ = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'referer': 'https://www.qidian.com/rank/', 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1' } url_ = 'https://www.qidian.com/rank/yuepiao/' # 請求網頁源代碼 str_data = requests.get(url_, headers=headers_).text # 使用xpath解析書名 xml_obj = etree.HTML(str_data) # print(get_book_name( # xml_obj)) # ['從紅月開始', '人族鎮守使', '全屬性武道', '深空彼岸', '我的雲養女友', '我用閑書成聖人', '明克街13號', '星門', '東晉北府一丘八', '夜的命名術', '這個人仙太過正經', '頂級氣運,悄悄修煉千年', '不科學禦獸', '我的治愈系遊戲', '這遊戲也太真實瞭', '長夜餘火', '赤心巡天', '輪回樂園', '合道', '宇宙職業選手'] # print(get_yuepiao( # str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐'] # print(get_font(xml_obj, headers_)) # 書名列表 book_name_list = get_book_name(xml_obj) # 月票列表 yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_)) for i in range(len(book_name_list)): print(f'{book_name_list[i]}:{yuepiao_list[i]}')
到此這篇關於python起點網月票榜字體反爬案例的文章就介紹到這瞭,更多相關python字體反爬內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!