Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用

下載代碼Cookie池(這裡主要是微博登錄,也可以自己配置置其他的站點網址)

下載代碼GitHub:https://github.com/Python3WebSpider/CookiesPool

下載安裝過後註意看網頁下面的相關基礎配置和操作!!!!!!!!!!!!!

自己的設置主要有下面幾步:

1、配置其他設置

2、設置使用的瀏覽器

3、設置模擬登陸

源碼cookies.py的修改(以下兩處不修改可能會產生bug)

 

4、獲取cookie

隨機獲取Cookies: http://localhost:5000/weibo/random(註意:cookie使用時是需要後期處理的!!)

簡單的處理方式,如下代碼(偶爾需要對獲取的cookie處理):

def get_cookie(self):
    return requests.get('http://127.0.0.1:5000/weibo/random').text
 
  def stringToDict(self,cookie):
    itemDict = {}
    items = cookie.replace(':', '=').split(',')
    for item in items:
      key = item.split('=')[0].replace(' ', '').strip(' "')
      value = item.split('=')[1].strip(' "')
      itemDict[key] = value
    return itemDict

scrapy爬蟲的使用示例(爬取微博):

middlewares.py中自定義請求中間件

def start_requests(self):
    ua = UserAgent()
    headers = {
      'User-Agent': ua.random,
      }
    cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
 
    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)

settings.py 中的配置:

5、錄入賬號和密碼:

格式規定(賬號—-密碼)

6、驗證:(註意:使用cmd)

7、使用時註意保持cmd打開運行!!

使用時一定要打開cmd,並運行如第6步。

得到Cookie是判斷是否處理處理Cookie(幾乎都需要!!)類比第4步!!!

到此這篇關於Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用的文章就介紹到這瞭,更多相關scrapy Cookie池內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: