Golang 正則匹配效率詳解

最近有個小需求,校驗IMEI是否為15位純數字(是否合法)

以下是正則匹配

與自己實現的簡單驗證方式進行壓測

package main
import (
    "regexp"
    "testing"
)
func BenchmarkIsDigitalRegexp(b *testing.B) {
    for i := 0; i < b.N; i++ {
        _ = isDigitalRegexp("358901806972417")
    }
}
func BenchmarkIsDigital(b *testing.B) {
    for i := 0; i < b.N; i++ {
        _ = isDigital("358901806972417")
    }
}
func isDigitalRegexp(imei string) bool {
    if ok, _ := regexp.Match("^[0-9]{15}$", []byte(imei)); ok {
        return true
    }else {
        return false
    }
}
func isDigital(imei string) bool {
    n := len(imei)
    if n == 15 {
        for i := 0; i < n; i++ {
            if imei[i] >= 48 && imei[i] <= 57 {
                continue
            }else {
                return false
            }
        }
    }else {
        return false
    }
    return true
}

壓測結果:

C:\Users\M709FJSA\go\src\pprof_demo\re>go test -bench=. -benchmem
goos: windows
goarch: amd64
pkg: pprof_demo/re
BenchmarkIsDigitalRegexp-12       300000              4644 ns/op            6450 B/op         70 allocs/op
BenchmarkIsDigital-12           200000000                9.48 ns/op            0 B/op          0 allocs/op
PASS
ok      pprof_demo/re   4.577s

很明顯,正則需要重新分配內存較多,從pprof生成圖也可以看出,正則調用關系錯綜復雜

在這裡插入圖片描述

補充:Golang —— 正則表達式

正則表達式是一種進行模式匹配和文本操縱的復雜而又強大的工具。雖然正則表達式比純粹的文本匹配效率低,但是它卻更靈活。

按照它的語法規則,隨需構造出的匹配模式就能夠從原始文本中篩選出幾乎任何你想要得到的字符組合。

Go語言通過regexp標準包為正則表達式提供瞭官方支持,如果你已經使用過其他編程語言提供的正則相關功能,那麼你應該對Go語言版本的不會太陌生,但是它們之間也有一些小的差異,因為Go實現的是RE2標準,除瞭\C。

其實字符串處理我們可以使用strings包來進行搜索(Contains、Index)、替換(Replace)和解析(Split、Join)等操作,但是這些都是簡單的字符串操作,他們的搜索都是大小寫敏感,而且固定的字符串,如果我們需要匹配可變的那種就沒辦法實現瞭,當然如果strings包能解決你的問題,那麼就盡量使用它來解決。

因為他們足夠簡單、而且性能和可讀性都會比正則好。

正則匹配規則圖

詳細請參考官方文檔

在這裡插入圖片描述

簡單的正則表達式

1. 匹配任意類型

	buf := "abc azc a7c aac 888 a9c tac"
	// 1. 解釋規則
	reg := regexp.MustCompile(`a.c`) // 這裡會解析正則表達式,成功就返回解釋器(. ——> 除\n外任意字符)
	if reg == nil { // 解釋失敗
		fmt.Println("MustCompile err")
		return
	}
	// 2. 根據規則提取關鍵信息
	res :=  reg.FindAllStringSubmatch(buf, -1) //-1表示匹配所有的
	// res :=  reg.FindAllStringSubmatch(buf, 1) //1表示匹配一個
	fmt.Println("res = ", res)

執行結果:

res =  [[abc] [azc] [a7c] [aac] [a9c]]

2. 使用 […] (字符集) 匹配[0-9]之間的數值

  buf := "abc azc a7c aac 888 a9c  tac"
 
    //1) 解釋規則, 它會解析正則表達式,如果成功返回解釋器
    reg1 := regexp.MustCompile(`a[0-9]c`)
 
    if reg1 == nil { //解釋失敗,返回nil
        fmt.Println("MustCompile err")
        return
    }
 
    //2) 根據規則提取關鍵信息
    result1 := reg1.FindAllStringSubmatch(buf, -1)
    fmt.Println("result1 = ", result1)

執行結果:

result1 =  [[a7c] [a9c]]

3. 使用 \d 匹配[0-9]之間的數值

  buf := "abc azc a7c aac 888 a9c  tac"
 
    //1) 解釋規則, 它會解析正則表達式,如果成功返回解釋器
    reg1 := regexp.MustCompile(`a\dc`)
    if reg1 == nil { //解釋失敗,返回nil
        fmt.Println("MustCompile err")
        return
    }
 
    //2) 根據規則提取關鍵信息
    result1 := reg1.FindAllStringSubmatch(buf, -1)
    fmt.Println("result1 = ", result1)

執行結果:

result1 =  [[a7c] [a9c]]

4.匹配小數

 buf := "3.14 456 adsc as23d 1.23 3. 9.99 1lsa23d 0.08 0.00  "
 // 解釋正則表達式
 reg := regexp.MustCompile(`\d+\.\d+`) // +表示匹配前一個字符的一次或者多次
 if reg == nil {
  fmt.Println("MustCompile err")
  return
 }
 // 提取關鍵信息
 res := reg.FindAllStringSubmatch(buf, -1)
 fmt.Println("res = ", res)

執行結果:

res =  [[3.14] [1.23] [9.99] [0.08] [0.00]]

5.匹配信息中某關鍵字並過濾帶標簽的

	// ` ` 是原生字符串
	buf := `
			<!DOCTYPE html>
			<html lang="zh-CN">
			<head>
				<title>Go語言標準庫文檔中文版 | Go語言中文網 | Golang中文社區 | Golang中國</title>
				<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1.0, user-scalable=no">
				<meta http-equiv="X-UA-Compatible" content="IE=edge, chrome=1">
				<meta charset="utf-8">
				<link rel="shortcut icon" href="/static/img/go.ico" rel="external nofollow" >
				<link rel="apple-touch-icon" type="image/png" href="/static/img/logo2.png" rel="external nofollow" >
				<meta name="author" content="polaris <[email protected]>">
				<meta name="keywords" content="中文, 文檔, 標準庫, Go語言,Golang,Go社區,Go中文社區,Golang中文社區,Go語言社區,Go語言學習,學習Go語言,Go語言學習園地,Golang 中國,Golang中國,Golang China, Go語言論壇, Go語言中文網">
				<meta name="description" content="Go語言文檔中文版,Go語言中文網,中國 Golang 社區,Go語言學習園地,致力於構建完善的 Golang 中文社區,Go語言愛好者的學習傢園。分享 Go 語言知識,交流使用經驗">
			</head>
				<div>和愛好</div>
				<div>哈哈
				你在嗎
				不在
				</div>
				<div>測試</div>
				<div>你過來啊</div>
			
			<frameset cols="15,85">
				<frame src="/static/pkgdoc/i.html">
				<frame name="main" src="/static/pkgdoc/main.html" tppabs="main.html" >
				<noframes>
				</noframes>
			</frameset>
			</html>
			`
	// 解釋正則表達式
	reg := regexp.MustCompile(`<div>(?s:(.*?))</div>`) // s用來處理換行情況
	if reg == nil {
		fmt.Println("MustCompile err")
		return
	}
	// 提取關鍵字
	res := reg.FindAllStringSubmatch(buf, -1)
	// fmt.Println("res = ", res)
	// 過濾<> </>
	for _, text := range res {
		//fmt.Println("text[0] = ", text[0]) // 帶<> </>的
		fmt.Println("text[1] = ", text[1]) //  不帶<> </> 的
	}

執行結果:

text[1] =  和愛好
text[1] =  哈哈
    你在嗎
    不在
    
text[1] =  測試
text[1] =  你過來啊

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。

推薦閱讀: