python爬取一組小姐姐圖片實例

前言

前段時間我有個朋友看到一些小姐姐的照片,想全部下載下來,叫我幫個忙。於是花費瞭半天給他全部下載瞭下來。

引入庫

import time
import requests
from lxml import etree
這三個庫是為瞭讓我們在請求別人網站的時候,讓程序休息一會,避免別人的網站會攔截或者崩潰和將得到的頁面源代碼進行解析。

網頁分析

利用瀏覽器的開發者模式,對頁面進行分析,找出我們所需要的每個圖片封面url

href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')

我們得到瞭封面的url後,但這還不是我們所需要的,我們所需要的是超鏈接裡面的圖片

 我們進入後,發現每張圖片都在<p></p>裡面,如何我們利用循環得到每張圖片的url地址

 for url_img in href:
            img_url = requests.get(url_img,headers=head)
            # print(img_url.text)
            time.sleep(1)
            t = etree.HTML(img_url.text)
            url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")

剩下的就很簡單瞭,我們隻需對文件進行保存就得到我們想要的結果瞭。

 with open(f"./img/{name}",mode="wb") as f:
        f.write(download_img.content)
        print("正在下載:" +name)
        time.sleep(1)

總結

但同步下載非常慢,我們可以寫個多線程或者異步協程來幫助我們下載得更快。

我知道還有很多不足,有沒有更簡潔的寫法,希望大佬們能指出,謝謝!

完整代碼

import time
import requests
from lxml import etree
 
def get_page_url():
    for i in range(1, 4): # 循環3頁
        url = f"https://mm.tvv.tw/category/xinggan/{i}/"
 
        # 請求頁面得到源代碼
        res = requests.get(url,headers=head)
        # 對源代碼進行解析
        tree = etree.HTML(res.text)
        # 得到每個圖片的封面url(href)
        href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
        # print("-------------------------------------------------------")
        time.sleep(3)
        for url_img in href:
            img_url = requests.get(url_img,headers=head)
            # print(img_url.text)
            time.sleep(1)
            t = etree.HTML(img_url.text)
            url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
            # print(url_list)
            time.sleep(1)
            for url_src in url_list:
                get_img(url_src)
 
def get_img(url):
    name = url.rsplit("/",1)[1]
    time.sleep(2)
    download_img = requests.get(url,headers=head)
    with open(f"./img/{name}",mode="wb") as f:
        f.write(download_img.content)
        print("正在下載:" +name)
        time.sleep(1)
    f.close()
 
 
 
 
if __name__ == '__main__':
    head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}
    get_page_url()
到此這篇關於python爬取一組小姐姐圖片實例的文章就介紹到這瞭,更多相關python爬取圖片內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: