一文搞懂Java正則表達式的使用

Posted on 2022-08-24 by WalkonNet

1.什麼是正則表達式

在瞭解正則表達式之前，我們先看幾個非常常見的問題：

如何判斷字符串是否是有效的電話號碼？例如：010-1234567，123ABC456，13510001000等；

如何判斷字符串是否是有效的電子郵件地址？例如：test@example.com，test#example等；

如何判斷字符串是否是有效的時間？例如：12:34，09:60，99:99等。

一種直觀的想法是通過程序判斷，這種方法需要為每種用例創建規則，然後用代碼實現。

為每一種判斷邏輯編寫代碼實在是太繁瑣瞭。有沒有更簡單的方法？

有！用正則表達式！

正則表達式可以用字符串來描述規則，並用來匹配字符串。例如，判斷手機號，我們用正則表達式\d{11}

使用正則表達式的好處有哪些？一個正則表達式就是一個描述規則的字符串，所以，隻需要編寫正確的規則，我們就可以讓正則表達式引擎去判斷目標字符串是否符合規則。

正則表達式是一套標準，它可以用於任何語言。Java標準庫的java.util.regex包內置瞭正則表達式引擎，在Java程序中使用正則表達式非常簡單。

2.快速入門案例

找到文本中的所有英文單詞（含字母）：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 正則表達式快速入門
 */
public class HelloRegularExpression {
    public static void main(String[] args) {
        String content = "Go的語法接近C語言，但對於變量的聲明有所不同。Go支持垃圾回收功能" +
                "。Go的並行模型是以東尼·霍爾的通信順序進程（CSP）為基礎，采取類似模型的" +
                "其他語言包括Occam和Limbo，但它也具有Pi運算的特征，比如通道傳輸。在" +
                "1.8版本中開放插件（Plugin）的支持，這意味著現在能從Go中動態加載部分" +
                "函數。\n" +
                "與C++相比，Go並不包括如枚舉、異常處理、繼承、泛型、斷言、虛函數等功" +
                "能，但增加瞭 切片(Slice) 型、並發、管道、垃圾回收、接口" +
                "（Interface）等特性的語言級支持。Go 2.0版本將支持泛型，對於斷言的" +
                "存在，則持負面態度，同時也為自己不提供類型繼承來辯護。\n" +
                "不同於Java，Go內嵌瞭關聯數組（也稱為哈希表(Hashes)或字典" +
                "(Dictionaries) ），就像字符串類型一樣。";

        // 實例：找到文本中的所有英文單詞（含字母）
        // 先創建一個Pattern模式對象
        Pattern pattern = Pattern.compile("[a-zA-Z]+");
        // 創建一個匹配器對象
        Matcher matcher = pattern.matcher(content);
        // 開始匹配
        while (matcher.find()) {
            System.out.println("找到：" + matcher.group(0));
        }
    }
}

輸出：

找到：Go
找到：C
找到：Go
找到：Go
找到：CSP
找到：Occam
找到：Limbo
找到：Pi
找到：Plugin
找到：Go
找到：C
找到：Go
找到：Slice
找到：Interface
找到：Go
找到：Java
找到：Go
找到：Hashes
找到：Dictionaries

3.正則表達式語法

轉義符號

當我們在檢索某些字符時，需要用到轉義符號，否則檢索不到結果，甚至發生錯誤

在正則表達式中，兩個\\代表其他語言中的一個\

字符匹配符

[] – 可接受的字符列表

[efgh] 表示可接收的efgh中的任意一個字符

[^] – 不可接受的字符列表

^abc 表示除瞭abc之外的任意一個字符，包括數字和特殊字符

– – 連字符

A-Z 表示任意一個大寫字母

. – 匹配除\n以外的任意一個字符

a..b 以a開頭，b結尾，中間包括2個任意字符的長度為4的字符串

\\d – 匹配單個數字字符

\\d{3}(\\d)? 包含3個或者4個數字的字符串

\\D 匹配單個非數字字符

\\D(\\d)* 以單個非數字字符開頭，後接任意個數字字符串

\\w 匹配單個數字、大小寫字符

\\d{3}\\w{4} 以三個數字字符開頭的長度為7的數字字母字符串

\\W 匹配非數字字母字符串

\\W+\\d{2} 以至少一個非數字字母字符開頭，2個數字字符結尾的字符串

字符匹配符演示

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 正則表達式快速入門
 */
public class HelloRegularExpression {
    public static void main(String[] args) {
        String content = "Go的語法接近C語言，但對於變量的聲明有所不同。Go支持垃圾回收功能" +
                "。Go的並行模型是以東尼·霍爾的通信順序進程（CSP）為基礎，采取類似模型的" +
                "其他語言包括Occam和Limbo，但它也具有Pi運算的特征，比如通道傳輸。在" +
                "1.8版本中開放插件（Plugin）的支持，這意味著現在能從Go中動態加載部分" +
                "函數。\n" +
                "與C++相比，Go並不包括如枚舉、異常處理、繼承、泛型、斷言、虛函數等功" +
                "能，但增加瞭 切片(Slice) 型、並發、管道、垃圾回收、接口" +
                "（Interface）等特性的語言級支持。Go 2.0版本將支持泛型，對於斷言的" +
                "存在，則持負面態度，同時也為自己不提供類型繼承來辯護。\n" +
                "不同於Java，Go內嵌瞭關聯數組（也稱為哈希表(Hashes)或字典" +
                "(Dictionaries) ），就像字符串類型一樣。a11c8abcABCaBc";

        // 實例：找到文本中的所有英文單詞（含字母）
        // 先創建一個Pattern模式對象
        Pattern pattern = Pattern.compile("[a-zA-Z]+");
        // 創建一個匹配器對象
        Matcher matcher = pattern.matcher(content);
        // 開始匹配
        while (matcher.find()) {
            System.out.println("找到：" + matcher.group(0));
        }

        // 實例：找到a-z之間的任意一個字符
        Pattern pattern1 = Pattern.compile("[a-z]");
        Matcher matcher1 = pattern1.matcher(content);
        while (matcher1.find()) {
            System.out.println("2找到：" + matcher1.group(0));
        }

        // 實例：找到abc字符，不區分大小寫
        Pattern pattern2 = Pattern.compile("(?i)abc");
        Matcher matcher2 = pattern2.matcher(content);
        while (matcher2.find()) {
            System.out.println("3找到：" + matcher2.group(0));
        }

        // 實例：找到abc字符，b不區分大小寫
        Pattern pattern3 = Pattern.compile("a((?i)b)c");
        Matcher matcher3 = pattern3.matcher(content);
        while (matcher3.find()) {
            System.out.println("4找到：" + matcher3.group(0));
        }

        // 實例：找到abc字符，不區分大小寫，設置參數的方式
        Pattern pattern4 = Pattern.compile("abc", Pattern.CASE_INSENSITIVE);
        Matcher matcher4 = pattern4.matcher(content);
        while (matcher4.find()) {
            System.out.println("5找到：" + matcher4.group(0));
        }

        // 實例：找到非數字字母字符的所有字符（含中文）
        Pattern pattern5 = Pattern.compile("\\W", Pattern.CASE_INSENSITIVE);
        Matcher matcher5 = pattern5.matcher(content);
        while (matcher5.find()) {
            System.out.println("6找到：" + matcher5.group(0));
        }
    }
}

選擇匹配符

| – 多個條件滿足一個即可匹配成功

例如：匹配文本中的Go/C/Java中的任意一個字符串

String content = "Go的語法接近C語言，但對於變量的聲明有所不同。Go支持垃圾回收功能" +
        "。Go的並行模型是以東尼·霍爾的通信順序進程（CSP）為基礎，采取類似模型的" +
        "其他語言包括Occam和Limbo，但它也具有Pi運算的特征，比如通道傳輸。在" +
        "1.8版本中開放插件（Plugin）的支持，這意味著現在能從Go中動態加載部分" +
        "函數。\n" +
        "與C++相比，Go並不包括如枚舉、異常處理、繼承、泛型、斷言、虛函數等功" +
        "能，但增加瞭 切片(Slice) 型、並發、管道、垃圾回收、接口" +
        "（Interface）等特性的語言級支持。Go 2.0版本將支持泛型，對於斷言的" +
        "存在，則持負面態度，同時也為自己不提供類型繼承來辯護。\n" +
        "不同於Java，Go內嵌瞭關聯數組（也稱為哈希表(Hashes)或字典" +
        "(Dictionaries) ），就像字符串類型一樣。a11c8abcABCaBc";

Pattern pattern = Pattern.compile("Go|C|Java");
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
    System.out.println("找到：" + matcher.group(0));
}

正則限定符

* – 指定字符重復0次或n次

示例：(abc)* 指定abc字符串重復0次或者n次

實例：abc，abcabcabc

+ – 指定字符重復1次或n次

示例：m+(abc)* 指定以至少一個m開頭，後面接任意個abc的字符串

實例：m，mabc，mmabcabc

? – 指定字符重復0次或者1次

示例：m+abc? 指定以至少一個m開頭，後面是ab或者abc的字符串

實例：mab，mmabc

{n} – 隻能輸入n個字符

示例：[abcd]{3} 由abcd字符組成的任意長度為3的字符串

實例：abc，dbc，adc

{n,} – 指定至少n個匹配

示例：[abcd]{3,} 由abcd組成的任意長度不小於3的字符串

實例：aab，aaadbc

{n,m} – 指定至少n個但是不多於m個匹配

註意：java的匹配是貪婪匹配，即盡可能匹配多的，即優先匹配m個字符

示例：[abcd]{3,5} 由abcd組成的任意長度不小於3大於5的字符串

實例：abc，aaabb

代碼演示：（匹配六個a）

import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 正則限定符
 */
public class Qualifier {
    public static void main(String[] args) {
        String content = "Go的語法接近C語言，但對於變量的聲明有所不同。Go支持垃圾回收功能" +
                "。Go的並行模型是以東尼·霍爾的通信順序進程（CSP）為基礎，采取類似模型的" +
                "其他語言包括Occam和Limbo，但它也具有Pi運算的特征，比如通道傳輸。在" +
                "1.8版本中開放插件（Plugin）的支持，這意味著現在能從Go中動態加載部分" +
                "函數。\n" +
                "與C++相比，Go並不包括如枚舉、異常處理、繼承、泛型、斷言、虛函數等功" +
                "能，但增加瞭 切片(Slice) 型、並發、管道、垃圾回收、接口" +
                "（Interface）等特性的語言級支持。Go 2.0版本將支持泛型，對於斷言的" +
                "存在，則持負面態度，同時也為自己不提供類型繼承來辯護。\n" +
                "不同於Java，Go內嵌瞭關聯數組（也稱為哈希表(Hashes)或字典" +
                "(Dictionaries) ），就像字符串類型一樣。aaaaaa11c8abcABCaBc";

        // 匹配六個a
        Pattern pattern = Pattern.compile("a{6}");
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()) {
            System.out.println("找到：" + matcher.group(0));
        }
    }
}

正則定位符

^ – 指定起始字符

示例：^[0-9]+[a-z]* 以至少1個數字開頭，後接任意個小寫字母的字符串

實例：123，6aa，555edf

$ – 指定結束字符

示例：^[0-9]\\-[a-z]+$ 以至少一個數字開頭連接-並以至少一個小寫字母結尾的字符串

實例：1-a，2-abc

程序演示：

Pattern pattern = Pattern.compile("^[0-9]+[a-z]*");
Matcher matcher = pattern.matcher("123abc");
while (matcher.find()) {
    System.out.println("找到：" + matcher.group(0));
}

Pattern pattern2 = Pattern.compile("^[0-9]\\-[a-z]+$");
Matcher matcher2 = pattern2.matcher("1-a");
while (matcher2.find()) {
    System.out.println("找到：" + matcher2.group(0));
}

輸出：

找到：123abc
找到：1-a

\\b – 匹配目標字符串的邊界（結尾）

示例：guo\\b 字串間有空格，或者是目標字符串的結尾位置匹配guo

實例：yunyunguo nanguo

\\B – 匹配目標字符串的邊界（開頭）

示例：guo\\B 字串間有空格，或者是目標字符串的開頭位置匹配guo

實例：guoyunyun guotime

以上就是一文搞懂Java正則表達式的使用的詳細內容，更多關於Java正則表達式的資料請關註WalkonNet其它相關文章！

一文搞懂Java正則表達式的使用

目錄

1.什麼是正則表達式

2.快速入門案例

3.正則表達式語法

轉義符號

字符匹配符

字符匹配符演示

選擇匹配符

正則限定符

正則定位符

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

1.什麼是正則表達式

2.快速入門案例

3.正則表達式語法

轉義符號

字符匹配符

字符匹配符演示

選擇匹配符

正則限定符

正則定位符

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆