Python實現多線程爬表情包詳解

Posted on 2021-11-25 by WalkonNet

課程亮點

系統分析目標網頁

html標簽數據解析方法

海量圖片數據一鍵保存

環境介紹

python 3.8

pycharm

模塊使用

requests >>> pip install requests

parsel >>> pip install parsel

time 時間模塊記錄運行時間

流程

一. 分析我們想要的數據內容是可以從哪裡獲取

表情包 >>> 圖片url地址以及圖片名字

對於開發者工具的使用 >>>

二. 代碼實現步驟

1.發送請求

確定一下發送請求 url地址

請求方式是什麼 get請求方式 post請求方式

請求頭參數 : 防盜鏈 cookie …

2.獲取數據

獲取服務器返回的數據內容

response.text 獲取文本數據

response.json() 獲取json字典數據

response.content 獲取二進制數據保存圖片/音頻/視頻/特定格式文件內容都是獲取二進制數據內容

3.解析數據

提取我們想要的數據內容

I. 可以直接解析處理

II. json字典數據鍵值對取值

III. re正則表達式

IV. css選擇器

V. xpath

4.保存數據

文本

csv

數據庫

本地文件夾

導入模塊

import requests  # 數據請求模塊 第三方模塊 pip install requests
import parsel  # 數據解析模塊 第三方模塊 pip install parsel
import re  # 正則表達式模塊
import time  # 時間模塊
import concurrent.futures

單線程爬取10頁數據

1. 發送請求

start_time = time.time()

for page in range(1, 11):
    url = f'https://fabiaoqing.com/biaoqing/lists/page/{page}html'
     headers = {
         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
     }
     response = requests.get(url=url, headers=headers)
     # <Response [200]> response 對象 200狀態碼 表示請求成功

2. 獲取數據, 獲取文本數據 / 網頁源代碼

# 在開發者工具上面 元素面板 看到有相應標簽數據, 但是我發送請求之後 沒有這樣的數據返回
# 我們要提取數據, 要根據服務器返回數據內容
# xpath 解析方法 parsel 解析模塊  parsel這個模塊裡面就可以調用xpath解析方法
# print(response.text)

3. 解析數據

# 解析速度 bs4 解析速度會慢一些 如果你想要對於字符串數據內容 直接取值 隻能正則表達式
     selector = parsel.Selector(response.text) # 把獲取下來html字符串數據內容 轉成 selector 對象
     title_list = selector.css('.ui.image.lazy::attr(title)').getall()
     img_list = selector.css('.ui.image.lazy::attr(data-original)').getall()
# 把獲取下來的這兩個列表 提取裡面元素 一一提取出來
# 提取列表元素 for循環 遍歷
     for title, img_url in zip(title_list, img_list):

4. 保存數據

# split() 字符串分割的方法 根據列表索引位置取值
# img_name_1 = img_url[-3:] # 通過字符串數據 進行切片
# 從左往右 索引位置 是從 0 開始 從右往左 是 -1開始
         # print(title, img_url)
         title = re.sub(r'[\/:*?"<>|\n]', '_', title)
         # 名字太長 報錯
         img_name = img_url.split('.')[-1]   # 通過split() 字符串分割的方法 根據列表索引位置取值
         img_content = requests.get(url=img_url).content # 獲取圖片的二進制數據內容
         with open('img\\' + title + '.' + img_name, mode='wb') as f:
             f.write(img_content)
         print(title)

多線程爬取10頁數據

def get_response(html_url):
    """發送請求"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
    }
    response = requests.get(url=html_url, headers=headers)
    return response

def get_img_info(html_url):
    """獲取圖片url地址 以及 圖片名字"""
    response = get_response(html_url)
    selector = parsel.Selector(response.text)  # 把獲取下來html字符串數據內容 轉成 selector 對象
    title_list = selector.css('.ui.image.lazy::attr(title)').getall()
    img_list = selector.css('.ui.image.lazy::attr(data-original)').getall()
    zip_data = zip(title_list, img_list)
    return zip_data

def save(title, img_url):
    """保存數據"""
    title = re.sub(r'[\/:*?"<>|\n]', '_', title)
    # 名字太長 報錯
    img_name = img_url.split('.')[-1]  # 通過split() 字符串分割的方法 根據列表索引位置取值
    img_content = requests.get(url=img_url).content  # 獲取圖片的二進制數據內容
    with open('img\\' + title + '.' + img_name, mode='wb') as f:
        f.write(img_content)
    print(title)

多進程爬取10頁數據

def main(html_url):
    zip_data = get_img_info(html_url)
    for title, img_url in zip_data:
        save(title, img_url)

if __name__ == '__main__':
    start_time = time.time()
    exe = concurrent.futures.ThreadPoolExecutor(max_workers=10)
    for page in range(1, 11):
        # 1. 發送請求
        url = f'https://fabiaoqing.com/biaoqing/lists/page/{page}html'
        exe.submit(main, url)
    exe.shutdown()
    end_time = time.time()
    use_time = int(end_time - start_time)
    print('程序耗時: ', use_time)

單線程爬取10頁數據 61秒時間

多線程爬取10頁數據 19秒時間 >>> 13

多進程爬取10頁數據 21秒時間 >>> 18

到此這篇關於Python實現多線程爬表情包詳解的文章就介紹到這瞭,更多相關Python 多線程爬表情包內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python實現多線程爬表情包詳解

目錄

課程亮點

環境介紹

模塊使用

流程

一. 分析我們想要的數據內容是可以從哪裡獲取

二. 代碼實現步驟

導入模塊

單線程爬取10頁數據

多進程爬取10頁數據

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

課程亮點

環境介紹

模塊使用

流程

一. 分析我們想要的數據內容 是可以從哪裡獲取

二. 代碼實現步驟

導入模塊

單線程爬取10頁數據

多進程爬取10頁數據

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

一. 分析我們想要的數據內容是可以從哪裡獲取

發佈留言取消回覆