python3 scrapy框架的執行流程

Posted on 2021-07-08 by WalkonNet

scrapy框架概述：Scrapy，Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化測試。

創建項目

由於pycharm不能直接創建scrapy項目，必須通過命令行創建，所以相關操作在pycharm的終端進行：
1、安裝scrapy模塊：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、創建一個scrapy項目：scrapy startproject test_scrapy
4、生成一個爬蟲：scrapy genspider itcast “itcast.cn”
5、提取數據：完善spider，使用xpath等方法
6、保存數據：pipeline中保存數據

常用的命令

創建項目：scrapy startproject xxx
進入項目：cd xxx #進入某個文件夾下
創建爬蟲：scrapy genspider xxx（爬蟲名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲：scrapy crawl XXX
列出所有爬蟲：scrapy list
獲得配置信息：scrapy settings [options]

Scrapy項目下文件

scrapy.cfg: 項目的配置文件
test_scrapy/: 該項目的python模塊。在此放入代碼（核心）
test_scrapy/items.py: 項目中的item文件.（這是創建容器的地方，爬取的信息分別放到不同容器裡）
test_scrapy/pipelines.py: 項目中的pipelines文件.
test_scrapy/settings.py: 項目的設置文件.（我用到的設置一下基礎參數，比如加個文件頭，設置一個編碼）
test_scrapy/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

scrapy

scrapy框架的整體執行流程

1.spider的yeild將request發送給engine
2.engine對request不做任何處理發送給scheduler
3.scheduler，生成request交給engine
4.engine拿到request，通過middleware發送給downloader
5.downloader在\獲取到response之後，又經過middleware發送給engine
6.engine獲取到response之後，返回給spider，spider的parse()方法對獲取到的response進行處理，解析出items或者requests
7.將解析出來的items或者requests發送給engine
8.engine獲取到items或者requests，將items發送給ItemPipeline，將requests發送給scheduler（ps，隻有調度器中不存在request時，程序才停止，及時請求失敗scrapy也會重新進行請求）

關於yeild函數介紹

簡單地講，yield 的作用就是把一個函數變成一個 generator（生成器），帶有 yield 的函數不再是一個普通函數，Python 解釋器會將其視為一個 generator，帶有yeild的函數遇到yeild的時候就返回一個迭代值，下次迭代時，代碼從 yield 的下一條語句繼續執行，而函數的本地變量看起來和上次中斷執行前是完全一樣的，於是函數繼續執行，直到再次遇到 yield。

通俗的講就是：在一個函數中，程序執行到yield語句的時候，程序暫停，返回yield後面表達式的值，在下一次調用的時候，從yield語句暫停的地方繼續執行，如此循環，直到函數執行完。

到此這篇關於python3 scrapy框架的執行流程的文章就介紹到這瞭,更多相關python3 scrapy框架內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

python3 scrapy框架的執行流程

創建項目

常用的命令

Scrapy項目下文件

scrapy框架的整體執行流程

關於yeild函數介紹

推薦閱讀：

發佈留言取消回覆

近期文章

創建項目

常用的命令

Scrapy項目下文件

scrapy框架的整體執行流程

關於yeild函數介紹

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆