Python爬蟲Requests庫的使用詳情

Posted on 2022-08-16 by WalkonNet

一、Requests庫的7個主要的方法

1.request（）	構造請求，支撐以下的基礎方法
2.get（）	獲取HTML頁面的主要方法，對應於http的get
3.head（）	獲取HTML頁面的頭部信息的主要方法，對應於http的head
	-`以很少的流量獲取索要信息的概要內容`
4.post（）	向HTML提交post請求的方法，對應於http的post
	-`向URLpost一個字典將自動編碼為form（表單）`
	-`向URLpost一個字符串自動編碼為data`
5.put（）	向HTML提交put請求的方法，對應於http的put
6.patch（）	向HTML提交局部修改的請求，對應於http的patch
7.delete（）	向HTML提交刪除請求，對應於http的delete

以下代碼是描述的request方法中的13個控制訪問參數：

import requests

# **kwargs:控制訪問的參數，均為可選項，不僅僅是針對request，其他六中方法依舊適用

# params：字典或字節序列，作為參數增加到URL中，可以通過該參數篩選數據
kv = {"key1":"value1","key2":"value2"}
r = requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
# https://python123.io//ws?key1=value1&key2=value2

# data：字典、字節序列或文件對象，作為Request的內容;提交時，作為數據內容添加到當前的連接下
kv = {"key1":"value1","key2":"value2"}
r = requests.request('POST','http://python123.io/ws',params=kv)
body = '主體內容'
r = requests.request('POST','http://python123.io/ws',params=body)

# json：JSON格式的數據，作為Request的內容
kv = {"key1":"value1"}
r = requests.request('POST','http://python123.io/ws',json=kv)

# headers：字典，HTTP定制頭,模擬需要的瀏覽器來進行訪問
hd = {"user-agent":"Chrome/10"}
r = requests.request('POST','http://python123.io/ws',headers=hd)

# cookies：字典或CookieJar，Request中的cookie
# auth：元組，支持HTTP認證功能
# files：字典類型，傳輸文件;將某個文件提交到連接上
fs = {"file":open('data.xls','rb')}
r = requests.request('POST','http://python123.io/ws',file=fs)

# timeout：設定超時時間，秒為單位;在規定的時間內沒有接收到響應將會顯示timeout異常
r = requests.request('POST','http://www.baidu.com',timeout=10)

# proxies：字典類型，設定訪問代理服務器，可以增加登錄認證
pxs = {'http':'http://user:pass@10.10.10.1:1234', #當我們進入HTTP協議的網站時增加登錄認證
'https':'https://10.10.10.1.4321' } #當我們進入HTTPS協議的網站時，直接使用代理服務器的IP地址；可以有效掩蓋爬蟲的原IP地址
r = requests.request('GET','http://python123.io/ws',proxies=pxs)

# allow_redirects：True/False，默認為True，重定向開關
# stream：True/False，默認為True，獲取內容立刻下載的開關
# verify：True/False，默認為True，認證SSL證書開關
# cert：本地SSL證書路徑

二、Response對象的屬性

status_code	HTTP請求的返回狀態碼，200表示成功，400表示失敗
text	HTTP響應內容的字符串形式，即URL對應的頁面內容
encoding	從HTTPheader中猜測的響應內容編碼方式
	-`如果header中不存在charset，則認為編碼是ISO-8859-1`
apparent_encoding	從內容中分析出的響應內容編碼方式（備選編碼方式）
	-`從內容中分析出可能的編碼形式`
content	HTTP響應內容的二進制形式

import requests

#構造一個向服務器請求資源的Response對象
r = requests.get(url="http://www.baidu.com")

print(r.status_code) #打印請求狀態碼
#200
print(type(r)) #打印請求對象類型
#<class 'requests.models.Response'>
print(r.headers) #打印請求對象的頭部信息
#{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sat, 27 Jun 2020 09:03:41 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:32 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

print(r.text)
print(r.encoding) #ISO-8859-1
print(r.apparent_encoding) #備用編碼utf-8
r.encoding = "utf-8"
print(r.text)

直接解析會出現亂碼，將字符設為apparent_encoding時會結局問題。

三、爬取網頁通用代碼

try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "產生異常！"

作用：r.raise_for_status()函數判斷當前請求返回狀態碼，當返回狀態碼不為200時，產生異常並能夠被except捕獲

import requests

# （定義方法）封裝函數
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代碼錯誤，產生異常！"

if __name__ =="__main__":
url = "http://www.baidu.com"
print(getHTMLText(url)) #正常顯示爬取的頁面信息

if __name__ =="__main__":
url = "www.baidu.com" #缺失瞭
print(getHTMLText(url)) #代碼錯誤，產生異常！

四、Resquests庫的常見異常

requests.ConnectionError	網絡連接錯誤異常，如DNS查詢失敗、拒絕連接等
requests.HTTPError	HTTP錯誤異常
requests.URLRequired	URL缺失異常
requests.TooManyRedirects	超過最大重定向次數，產生重定向異常
requests.ConnectTimeout	連接遠程服務器超時異常
requests.Timeout	請求URL超時，產生超時異常

五、Robots協議展示

import requests
# （定義方法）封裝函數
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代碼錯誤，產生異常！"

if __name__ =="__main__":
url = "http://www.baidu.com/robots.txt"
print(getHTMLText(url)) #正常顯示爬取的頁面信息,顯示出robots協議對於不同類型爬蟲的限制

六、案例展示

1.爬取京東商品信息

在爬取後，我們發現在控制臺中返回瞭帶有login？的一個href，並沒有具體的信息內容。但是在爬取主頁時，可以直接獲取主頁具體信息。個人認為是由於無法識別是否已經登陸而導致的，後續學習中會跟進知識點及解決方法。（若有大佬會的，感謝評論！）

2.爬取網上圖片並保存

import requests
import os

url = "http://image.ngchina.com.cn/2019/0523/20190523103156143.jpg"
root = "F:/圖片/" #根目錄
path = root + url.split('/')[-1] #以最後一個/後的文字命名
try:
if not os.path.exists(root): #如果不存在根目錄文件，則創建根目錄文件夾
os.mkdir(root) #該方法隻能創建一級目錄，如要創建多層，可以遍歷循環創建
if not os.path.exists(path):
r = requests.get(url)
with open(path,'wb') as f:
f.write(r.content) #r.content返回的是2進制編碼，將其寫入
f.close()
print("文件已成功保存！")
else:
print("文件已存在~")
except:
print("爬取失敗！！！")

到此這篇關於Python爬蟲Requests庫的使用詳情的文章就介紹到這瞭,更多相關Python Requests庫內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python爬蟲Requests庫的使用詳情

目錄

一、Requests庫的7個主要的方法

二、Response對象的屬性

三、爬取網頁通用代碼

四、Resquests庫的常見異常

五、Robots協議展示

六、案例展示

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

一、Requests庫的7個主要的方法

二、Response對象的屬性

三、爬取網頁通用代碼

四、Resquests庫的常見異常

五、Robots協議展示

六、案例展示

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆