Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用
下載代碼Cookie池(這裡主要是微博登錄,也可以自己配置置其他的站點網址)
下載代碼GitHub:https://github.com/Python3WebSpider/CookiesPool
下載安裝過後註意看網頁下面的相關基礎配置和操作!!!!!!!!!!!!!
自己的設置主要有下面幾步:
1、配置其他設置
2、設置使用的瀏覽器
3、設置模擬登陸
源碼cookies.py的修改(以下兩處不修改可能會產生bug):
4、獲取cookie
隨機獲取Cookies: http://localhost:5000/weibo/random(註意:cookie使用時是需要後期處理的!!)
簡單的處理方式,如下代碼(偶爾需要對獲取的cookie處理):
def get_cookie(self): return requests.get('http://127.0.0.1:5000/weibo/random').text def stringToDict(self,cookie): itemDict = {} items = cookie.replace(':', '=').split(',') for item in items: key = item.split('=')[0].replace(' ', '').strip(' "') value = item.split('=')[1].strip(' "') itemDict[key] = value return itemDict
scrapy爬蟲的使用示例(爬取微博):
middlewares.py中自定義請求中間件
def start_requests(self): ua = UserAgent() headers = { 'User-Agent': ua.random, } cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse) cookies = self.stringToDict(str(self.get_cookie().strip('{|}'))) yield scrapy.Request(url=self.start_urls[0], headers=headers, cookies=cookies, callback=self.parse)
settings.py 中的配置:
5、錄入賬號和密碼:
格式規定(賬號—-密碼)
6、驗證:(註意:使用cmd)
7、使用時註意保持cmd打開運行!!
使用時一定要打開cmd,並運行如第6步。
得到Cookie是判斷是否處理處理Cookie(幾乎都需要!!)類比第4步!!!
到此這篇關於Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用的文章就介紹到這瞭,更多相關scrapy Cookie池內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- python scrapy簡單模擬登錄的代碼分析
- Scrapy實現模擬登錄的示例代碼
- Python爬蟲教程使用Scrapy框架爬取小說代碼示例
- Python scrapy爬取起點中文網小說榜單
- Python Scrapy爬蟲框架使用示例淺析