Python正則表達式re.compile()和re.findall()詳解

Posted on 2022-07-07 by WalkonNet

前言

在使用爬蟲提取網頁中的部分信息時，采用到瞭re.compile()與re.findall()兩種方法，目的：把網頁中的“某某城市土地規劃表”截取並打印出來.

網頁中的代碼：

 <span class='tab-details'>某某城市土地規劃表</span>

提取的方法：

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)  
    print(items)
    
    return items

結果：

['某某城市土地規劃表']

這裡主要講解pattern，re.compile()與re.findall()的定義及用法：

1.pattern ：pattern 屬性規定用於驗證輸入字段的正則表達式。

2.re.compile()：compile() 方法用於在腳本執行過程中編譯正則表達式，也可用於改變和重新編譯正則表達式。

舉例：在字符串中全局搜索 "man"，並用 "person" 替換。然後通過 compile() 方法，改變正則表達式，用 "person" 替換 "man" 或 "woman"，：

<script type="text/javascript">
var str="Every man in the world! Every woman on earth!";
 
patt=/man/g;
str2=str.replace(patt,"person");
//用person取代man
document.write(str2+"<br />");
 
patt=/(wo)?man/g;
patt.compile(patt);
str2=str.replace(patt,"person");
//用person取代man或者woman
document.write(str2);
 
</script>

輸出：（可見第一行中的man都被person取代，出現瞭woperson,第二行的的man和woman也被person取代，隻有person，沒有其他奇奇怪怪的字符串）

Every person in the world! Every woperson on earth!
Every person in the world! Every person on earth!

3.re.findall()：額，這個最難搞，主要是為瞭講解（.*？)

re.findall()函數是返回某種形式(比如String)中所有與pattern匹配的全部字符串,返回形式為數組。

下面是findall()函數的兩種表示形式:(上面的代碼采取的便是第二種形式）：

import re
kk = re.compile(r'\d+')
kk.findall('one1two2three3four4')
#[1,2,3,4]
 
#註意此處findall()的用法，可傳兩個參數;
kk = re.compile(r'\d+')
re.findall(kk,"one123")
#[1,2,3]

下面的是常用的正則表達式：

import re
 
str = 'aabbabaabbaa'
 
# 一個"."就是匹配除 \n (換行符)以外的任意一個字符
print(re.findall(r'a.b',str))#['aab', 'aab']
 
# *前面的字符出現0次或以上
print(re.findall(r'a*b',str))#['aab', 'b', 'ab', 'aab', 'b']
 
# 貪婪，匹配從.*前面為開始到後面為結束的所有內容
print(re.findall(r'a.*b',str))#['aabbabaabb']
 
# 非貪婪，遇到開始和結束就進行截取，因此截取多次符合的結果，中間沒有字符也會被截取
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
 
# 非貪婪，與上面一樣，隻是與上面的相比多瞭一個括號，隻保留括號的內容
print(re.findall(r'a(.*?)b',str))#['a', '', 'a']
 
str = '''aabbab
         aabbaa
         bb'''     #後面多加瞭2個b
 
# 沒有把最後一個換行的aab算進來
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
 
# re.S不會對\n進行中斷
print(re.findall(r'a.*?b',str,re.S))#['aab', 'ab', 'aab', 'aa\n         b']

註意'.*?'是對它的前後部分作為開始結束部分進行截取，而'(.*?)'也是把其前後作為開始結束，但是隻截取括號部分，不包含開始結束部分！！！（同時在對前後部分的選擇時要註意特征明確點，就是與眾不同的的嘛，防止截取出的是其他部分啊）

re.findall中參數re.S的意義：

1.字符串變為（後面多加瞭2個b）

str = '''aabbab
         aabbaa
         bb'''

2.參數無re.S，沒有把最後一個換行的aab算進來

print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']

3.參數有re.S，不會對\n進行中斷

print(re.findall(r'a.*?b',str,re.S))
#['aab', 'ab', 'aab', 'aa\n         b']

在我們一開始的代碼中就有re.s,因為在爬取網頁的內容時是按照一個一個塊的來爬取，可以理解為並列部分，會存在/n分行符。

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)  
    print(items)
    
    return items

參考：

1.HTML input pattern 屬性

2.Pattern用法(正則表達式)

3.JavaScript compile() 方法

4.Python 正則表達re模塊之findall()詳解

總結

到此這篇關於Python正則表達式re.compile()和re.findall()的文章就介紹到這瞭,更多相關Python正則re.compile()和re.findall()內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python正則表達式re.compile()和re.findall()詳解

目錄

前言

網頁中的代碼：

提取的方法：

re.findall中參數re.S的意義：

參考：

總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

前言

網頁中的代碼：

提取的方法：

re.findall中參數re.S的意義：

參考：

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆