Python爬蟲部分開篇概念講解

Posted on 2021-04-08 by WalkonNet

在學習Python爬蟲部分，需要你已經學過Python基礎和前端的相關知識。

開發環境介紹：

window10 操作系統
Python解釋器3.8
集成開發環境pycharm

數據的來源及作用

數據的來源有哪些？

用戶產生的數據：百度指數
政府統計的數據：政府數據
數據管理公司：聚合數據
自己爬取的數據：爬取網站上的某些視頻

數據的作用

數據分析
智能產品的練習數據
其他（比如買賣）

爬蟲的相關概念

a) 爬蟲的概念

爬蟲就是應用程序，從網上下載各種各樣的資源。
換句話說就是使用編程語言編寫一個用於爬蟲web或者app的數據應用程序。
怎麼爬取數據呢？

找到要爬取的目標網站，發起請求
分析url是如何變化的和提取有用的url
提取有用的信息

爬蟲什麼數據都可以爬嗎？
當然不能，需要遵守一定的規則和協議

可以看一下京東的：

在這裡插入圖片描述

有些是允許的，有些是不允許的。

b) 爬蟲分類

通用爬蟲

百度等搜索引擎，從一些初始的URL擴展到整個網站，主要為門戶站點搜索引起和大型網站服務采集數據

聚焦網站爬蟲

主題網絡爬蟲，選擇性爬取根據需求相關的頁面的網絡爬蟲

增量式網絡爬蟲

對已經下載的頁面采取更新知識和隻爬新產生的。

c) 爬蟲的原理

通用的爬蟲原理

在這裡插入圖片描述

聚焦網絡爬蟲原理

在這裡插入圖片描述

d) 各種語言寫爬蟲的對比

php對多線程，異步支持不是很友好，並發能力弱。速度和效率低
java：代碼量大，而且重構成本比較高，任何改動都會導致大量的改動，而爬蟲需要經常修改采集代碼
Python：開發效率高，代碼簡潔，支持的模塊多，和HTTP請求和html解析模塊非常豐富，還有scrapy,scrapy-redis框架，讓開發爬蟲更簡單。

到此這篇關於Python爬蟲部分開篇示例講解的文章就介紹到這瞭,更多相關Python爬蟲部分開篇示例講解內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

推薦閱讀：

None Found

發佈留言取消回覆