Python中Pyspider爬蟲框架的基本使用詳解

Posted on 2021-01-27 by WalkonNet

1.pyspider介紹

一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。采用Python語言編寫，分佈式架構，支持多種數據庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器。

用Python編寫腳本
功能強大的WebUI，包含腳本編輯器，任務監視器，項目管理器和結果查看器
MySQL，MongoDB，Redis，SQLite，Elasticsearch ; PostgreSQL與SQLAlchemy作為數據庫後端
RabbitMQ，Beanstalk，Redis和Kombu作為消息隊列
任務優先級，重試，定期，按年齡重新抓取等…
分佈式架構，抓取JavaScript頁面，Python 2和3等…

2.pyspider文檔

1>中文文檔:http://www.pyspider.cn/

2>英文文檔:http://docs.pyspider.org/

3.pyspider安裝

打開cmd命令行工具,執行命令

pip install pyspider

出現下圖則安裝成功

4.pyspider啟動服務,進入WebUI界面

安裝pyspider後,打開cmd命令工具,執行命令來啟動服務器

pyspider

出現下圖則啟動服務成功,默認地址端口為127.0.0.1:5000

輸入地址127.0.0.1:5000,打開WebUI界面

隊列統計是為瞭方便查看爬蟲狀態，優化爬蟲爬取速度新增的狀態統計．每個組件之間的數字就是對應不同隊列的排隊數量．通常來是０或是個位數．如果達到瞭幾十甚至一百說明下遊組件出現瞭瓶頸或錯誤，需要分析處理．

新建項目：pyspider與scrapy最大的區別就在這，pyspider新建項目調試項目完全在web下進行，而scrapy是在命令行下開發並運行測試．

組名：項目新建後一般來說是不能修改項目名的，如果需要特殊標記可修改組名．直接在組名上點鼠標左鍵進行修改．註意：組名改為delete後如果狀態為stop狀態，24小時後項目會被系統刪除．

運行狀態：這一欄顯示的是當前項目的運行狀態．每個項目的運行狀態都是單獨設置的．直接在每個項目的運行狀態上點鼠標左鍵進行修改．運行分為五個狀態：TODO，STOP，CHECKING，DEBUG，RUNNING．各狀態說明：TODO是新建項目後的默認狀態，不會運行項目．STOP狀態是停止狀態，也不會運行．CHECHING是修改項目代碼後自動變的狀態．DEBUG是調試模式，遇到錯誤信息會停止繼續運行，RUNNING是運行狀態，遇到錯誤會自動嘗試，如果還是錯誤會跳過錯誤的任務繼續運行．

速度控制：很多朋友安裝好用說爬的慢，多數情況是速度被限制瞭．這個功能就是速度設置項．rate是每秒爬取頁面數，burst是並發數．如1/3是三個並發，每秒爬取一個頁面．

簡單統計：這個功能隻是簡單的做的運行狀態統計，5m是五分鐘內任務執行情況，1h是一小時內運行任務統計，1d是一天內運行統計，all是所有的任務統計．

運行：run按鈕是項目初次運行需要點的按鈕，這個功能會運行項目的on_start方法來生成入口任務．

任務列表：顯示最新任務列表，方便查看狀態，查看錯誤等

結果查看：查看項目爬取的結果．

5.創建pyspider項目

點擊上圖中的新建項目按鈕

6.創建後的pyspider項目

到此這篇關於Python中Pyspider爬蟲框架的基本使用詳解的文章就介紹到這瞭,更多相關Pyspider爬蟲框架使用內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python中Pyspider爬蟲框架的基本使用詳解

1.pyspider介紹

2.pyspider文檔

3.pyspider安裝

4.pyspider啟動服務,進入WebUI界面

5.創建pyspider項目

6.創建後的pyspider項目

推薦閱讀：

發佈留言取消回覆

近期文章

1.pyspider介紹

2.pyspider文檔

3.pyspider安裝

4.pyspider啟動服務,進入WebUI界面

5.創建pyspider項目

6.創建後的pyspider項目

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆