python網絡爬蟲精解之pyquery的使用說明

Posted on 2021-09-26 by WalkonNet

一、pyquery的介紹

使用pyquery需要在Web和瞭解jQuery的基礎上，使用該CSS選擇器。

二、pyquery的使用

1、初始化工作

使用pyquery初始化的方式有很多，傳入的參數可以是字符串，也可以是URL和文件名，下面將一一介紹初始化方法。

字符串

html = '''
<html>

<head>
  <meta charset="utf-8">
  <title>test02.html</title>
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
</head>

<body>
  <div id="container">
    <iframe id="iframe" sandbox="allow-scripts" src="/files/%E7%88%AC%E8%99%AB%E5%86%99%E4%BD%9C%E4%BB%A3%E7%A0%81%E6%B5%8B%E8%AF%95/test02.html"></iframe>
  </div>
</body>

</html>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('title'))

【運行結果】

<title>test02.html</title>

URL

URL以CSDN首頁地址為例：

from pyquery import PyQuery as pq
doc = pq(url = 'https://www.csdn.net/')
print(doc('title'))

【運行結果】

<title>CSDN – 專業開發者社區</title>

文件初始化

我們將以下字符串保存為一個HTML文件，通過文件的形式進行初始化。

【test02.html】

<bookstore>
  <book>
    <title lang="eng">Harry Potter</title>
    <price>29.99</price>
  </book>

  <book>
    <title lang="eng">Learning XML</title>
    <price>39.95</price>
  </book>
</bookstore>

from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
print(doc('title'))

【運行結果】

<title lang=”eng”>Harry Potter</title>
<title lang=”eng”>Learning XML</title>

2、查找節點

（1）查找子節點

查找子節點時需要用到find（）方法，此時傳入的參數是CSS選擇器。

from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
item = doc('book')
print(item)
lis1 = item.find('title')
lis2 = item.find('price')
print(lis1)
print(lis2)

【運行結果】

<book>
<title lang=”eng”>Harry Potter</title>
<price>29.99</price>
</book>

<book>
<title lang=”eng”>Learning XML</title>
<price>39.95</price>
</book>

<title lang=”eng”>Harry Potter</title>
<title lang=”eng”>Learning XML</title>

<price>29.99</price>
<price>39.95</price>
可以看到，我們首先匹配的是book節點，然後匹配book節點下的子節點title和price。

其實使用find方法匹配的是所有的子孫節點，如果隻是單純匹配子節點可以使用children方法。

（2）匹配父節點

使用parent（）方法，如果是要匹配祖先節點，則需要使用parents（）方法。

（3）匹配兄弟節點

可以使用siblings（）方法。

3、遍歷

對於獲取到的內容如果是單個節點，則可以直接轉換為字符串類型，而對於獲取到多個節點，因其類型為PyQuery類型，需要對獲取到的數據進行遍歷，這是需要調用items（）方法。

from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title').items()
print(items)
print(type(items))
for i in items:
    print(type(i))
    print(i)

【運行結果】

<generator object PyQuery.items at 0x000002B79E13EF48>
<class ‘generator’>
<class ‘pyquery.pyquery.PyQuery’>
<title lang=”eng”>Harry Potter</title>

<class ‘pyquery.pyquery.PyQuery’>
<title lang=”eng”>Learning XML</title>

4、獲取信息

（1）獲取屬性

使用attr()方法

from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title')
for i in items.items():
    print(i.attr('lang'))

【運行結果】

eng
eng

遍歷獲取到的數據，就能獲得所有title節點的land屬性值。

（2）獲取文本

使用text()方法

from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title')
for i in items.items():
    print(i.text())

【運行結果】

Harry Potter
Learning XML

同樣是遍歷，獲取到每一個title節點的文本值。

5、節點操作

（1）為某個節點添加或刪除一個class

調用的方法為addClass和removeClass

from pyquery import PyQuery as pq
doc = pq(filename = 'test02.html')
items = doc('title')
for i in items.items():
    print(i)
    i.addClass('book01')
    print(i)
    i.removeClass('book01')
    print(i)

【運行結果】

<title lang=”eng”>Harry Potter</title>

<title lang=”eng” class=”book01″>Harry Potter</title>

<title lang=”eng” class=””>Harry Potter</title>

<title lang=”eng”>Learning XML</title>

<title lang=”eng” class=”book01″>Learning XML</title>

<title lang=”eng” class=””>Learning XML</title>

可以看到，首先是打印最初始的title節點，加上class屬性後再次打印，去掉class屬性後再次打印。

（2）attr、text、html

attr：用來改變屬性值；

text：用來改變文本值；

html：用來改變節點值；

（3）remove

移除不需要的節點值，將整個節點移除。

6、偽類選擇器

支持多種偽類選擇器，例如選擇第一個節點、最後一個節點、奇數節點、偶數節點、以及包含指定文本的節點等。

到此這篇關於python網絡爬蟲精解之pyquery的使用說明的文章就介紹到這瞭,更多相關python pyquery 內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

python網絡爬蟲精解之pyquery的使用說明

目錄

一、pyquery的介紹

二、pyquery的使用

1、初始化工作

字符串

URL

文件初始化

2、查找節點

（1）查找子節點

（2）匹配父節點

（3）匹配兄弟節點

3、遍歷

4、獲取信息

（1）獲取屬性

（2）獲取文本

5、節點操作

（1）為某個節點添加或刪除一個class

（2）attr、text、html

（3）remove

6、偽類選擇器

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

一、pyquery的介紹

二、pyquery的使用

1、初始化工作

字符串

URL

文件初始化

2、查找節點

（1）查找子節點

（2）匹配父節點

（3）匹配兄弟節點

3、遍歷

4、獲取信息

（1）獲取屬性

（2）獲取文本

5、節點操作

（1）為某個節點添加或刪除一個class

（2）attr、text、html

（3）remove

6、偽類選擇器

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆