python使用XPath解析數據爬取起點小說網數據

Posted on 2021-04-22 by WalkonNet

1. xpath 的介紹

xpath是一門在XML文檔中查找信息的語言

優點：

可以在xml中找信息
支持HTML的查找
可以通過元素和屬性進行導航

但是Xpath需要依賴xml的庫，所以我們需要去安裝lxml的庫。

安裝lxml庫

我們先要安裝lxml的庫，直接在pycharm裡安裝即可：

XML的樹形結構：

元素-元素-屬性-文本

使用XPath選取節點：

nodename: 選取此節點的所有節點
/從根節點選擇
// 從匹配選擇的當前節點選擇文檔中的節點，而不考慮他們的位置
. 選擇當前節點
.. 選擇當前節點的父節點（此處是兩個點，瀏覽器默認顯示3個..）
/text() 獲取當前路徑下的文本內容
/@xxx 提取當前路徑下標簽的屬性值

選取節點的表達式舉例：

2. 爬取起點小說網

在瀏覽器中獲取書名和作者測試

在谷歌裡安裝一個xpath的插件

在html中查找book-mid-info

我們要獲取小說的名稱：也就是 //div[@class=’book-mid-info’]/h4/a/txt()

再加一個獲取作者：

使用xpath獲取起點小說網的數據

# 作者：互聯網老辛
# 開發時間：2021/4/8/0008 8:24

import requests
from lxml import etree
url="https://www.qidian.com/rank/yuepiao"
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}
#發送請求
resp=requests.get(url,headers)
e=etree.HTML(resp.text) #類型轉換，把str轉變為class 'lxml.etree._ELement
print(type(e))
names=e.xpath('//div[@class="book-mid-info"]/h4/a/text()')
authors=e.xpath('//p[@class="author"]/a[1]/text()')
print(names)
print(authors)
#名稱和作者對應
for name,authors in zip(names,authors):
    print(name,":",authors)

以上就是python使用XPath解析數據爬取起點小說網數據的詳細內容，更多關於python XPath解析數據爬取起點小說網的資料請關註WalkonNet其它相關文章！

python使用XPath解析數據爬取起點小說網數據

1. xpath 的介紹

優點：

安裝lxml庫

XML的樹形結構：

選取節點的表達式舉例：

2. 爬取起點小說網

在瀏覽器中獲取書名和作者測試

使用xpath獲取起點小說網的數據

推薦閱讀：

發佈留言取消回覆

近期文章

1. xpath 的介紹

優點：

安裝lxml庫

XML的樹形結構：

選取節點的表達式舉例：

2. 爬取起點小說網

在瀏覽器中獲取書名和作者測試

使用xpath獲取起點小說網的數據

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆