Python之re模塊詳解

Posted on 2021-09-23 by WalkonNet

Python——re模塊

簡介

定義：re模塊稱為正則表達式；

作用：創建一個”規則表達式”，用於驗證和查找符合規則的文本，廣泛用於各種搜索引擎、賬戶密碼的驗證等；

預定義字符

"""
\d	匹配所有的十進制數字	0-9
\D	匹配所有的非數字，包含下劃線
\s	匹配所有空白字符（空格、TAB等）
\S	匹配所有非空白字符，包含下劃線
\w	匹配所有字母、漢字、數字	a-z A-Z 0-9
\W	匹配所有非字母、漢字、數字，包含下劃線
"""

特殊字符

1、$：匹配一行的結尾（必須放在正則表達式最後面）

2、^：匹配一行的開頭（必須放在正則表達式最前面）

3、*：前面的字符可以出現0次或多次（0~無限）

4、+：前面的字符可以出現1次或多次（1~無限）

5、？：變”貪婪模式”為”勉強模式”，前面的字符可以出現0次或1次

6、.：匹配除瞭換行符”\n”之外的任意單個字符

7、|：兩項都進行匹配

8、[ ]：代表一個集合，有如下三種情況

[abc]：能匹配其中的單個字符
[a-z0-9]：能匹配指定范圍的字符，可取反（在最前面加入^）
[2-9] [1-3]：能夠做組合匹配

9、{ }：用於標記前面的字符出現的頻率，有如下情況：

{n，m}：代表前面字符最少出現n次，最多出現m次
{n，}：代表前面字符最少出現n次，最多不受限制
{，m}：代表前面字符最多出現n次，最少不受限制
{n}：前面的字符必須出現n次

反斜杠問題

字符串中有反斜杠的，需要對反斜杠做轉義：

str = "\\123 223"		# \123 223
str = r"\123 223"		# \123 223

在正則表達式中，我們需要用多個反斜杠來匹配一個反斜杠：

find = re.search('\\\\\w+', str)
find = re.search(r'\\\w+', str)

匹配方法

1、match：在目標文本的開頭進行匹配

find = re.math('hello', str1)		# 匹配成功返回匹配對象hello，不成功返回None

2、search：在整個目標文本中進行匹配

3、findall：掃描整個目標文本，返回所有與規則匹配的子串組成的列表，如果沒有匹配的返回空列表

4、finditer：掃描整個目標文本，返回所有與規則匹配的子串組成的迭代器

5、fullmatch：要求目標文本要完全匹配規則，否則返回None

6、sub：將與規則匹配的子串替換為其他文本

str1 = re.sub('\w+', 'aaa', str, count=0)		# count默認為0，表示全部替換

7、split：從與規則匹配的子串進行切割，返回切割後子串組成的列表

8、匹配對象的方法（對匹配到的對象使用）：

（）：分組字符，可以為匹配到的內容分組，快速獲取到分組中的數據

group：用於查看指定分組匹配到的內容

str = '<p>這是一個<a href="###">文本</a></p>
find = re.search('<a href="(.+)">(\w+)</a>', str)
print(find.group())		# 默認為0，表示匹配到的全部文本，傳入1時輸出第一個分組###

groups：返回一個元組，組內為所有匹配到的內容（上面案例輸出（’###’，‘文本’））
groupdict：返回一個字典，包含分組的鍵值對，需要為分組命名

find = re.search('<a href="(?P<href>.+)">(?P<text>\w+)</a>', str)

start：返回匹配到的內容在文本中的起始索引end：返回匹配到的內容在文本中的結束索引span：返回由起始索引和結束索引組成的元組推薦

推薦一個正則闖關網站：https://alf.nu/RegexGolf

總結

本篇文章就到這裡瞭，希望能夠給你帶來幫助，也希望您能夠多多關註WalkonNet的更多內容！

Python之re模塊詳解

目錄

Python——re模塊

簡介

預定義字符

特殊字符

反斜杠問題

匹配方法

總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

Python——re模塊

簡介

預定義字符

特殊字符

反斜杠問題

匹配方法

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆