Java中Pattern.compile函數的使用詳解

Java Pattern.compile函數的使用

除瞭Pattern Pattern.compile(String regex),

Pattern類的compile()方法還有另一個版本:

Pattern Pattern.complie(String regex,int flag),它接受一個標記參數flag,以調整匹配的行為。

flag來自以下Pattern類中的常量:

編譯標記 效果
Pattern.CANON_EQ 兩個字符當且僅當它們的完全規范分解相匹配時,就認為它們是匹配的,例如,如果我們指定這個標記,表達式a\u030A就會匹配字符串?。在默認的情況下,匹配不考慮規范的等價性
Pattern.CASE_INSENSITIVE(?i) 默認情況下,大小寫不敏感的匹配假定隻有US-ASCII字符集中的字符才能進行。這個標記允許模式匹配不必考慮大小寫(大寫或小寫)。通過指定UNICODE_CASE標記及結合此標記,基於Unicode的大小寫不敏感的匹配就可以開啟瞭,也可以使用嵌入的標記表達式?i開啟,下同
Pattern.COMMENTS(?x) 在這種模式下,表達式中的空格(不是指\s,單純指空格)將被忽略掉,並且以#開始直到行末的註釋也會被忽略掉。通過嵌入的標記表達式也可以開啟Unix的行模式
Pattern.DOTALL(?s) 在dotall模式中,表達式“.”匹配所有字符,包括行終結符。默認情況下,“.”表達式不匹配行終結符
Pattern.MULTLINE(?m) 在多行模式下,表達式^和$分別匹配一行或輸入字符串的開始和結束。默認情況下,這些表達式僅匹配輸入的完整字符串的開始和結束
Pattern.UNICODE_CASE(?u) 當指定這個標記,並且開啟CASE_INSENSITIVE時,大小寫不敏感的匹配將按照與Unicode標準相一致的方式進行。默認情況下,大小寫不敏感的匹配假定隻能在US-ASCII字符集中的字符才能進行
Pattern.UNIX_LINES(?d) 在這種模式下,在.、^和$行為中,隻識別行終結符\n

在這些標記中 Pattern.CASE_INSENSITIVE(?i) ,Pattern.MULTLINE(?m),==Pattern.COMMENTS(?x)==中特別有用。

使用示例如下:

我們可以通過“或”( | )操作組合多個標記的功能

import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ReFlags {
 public static void main(String[] args) {  
  Pattern p=Pattern.compile("^java",Pattern.CASE_INSENSITIVE|Pattern.MULTILINE);
  /*
   * 使用Pattern.CASE_INSENSITIVE(大小寫不敏感的匹配)和Pattern.MULTILINE(多行模式)標記,忽略大小寫地匹配所有以java開頭的行
   */
  
  Matcher m=p.matcher("java has regex\nJava has regex\n"
    + "JAVA has pretty good regular expression\n"
    + "Regular expressions are in JavA");
  while (m.find()) { 
   System.out.println(m.group());//輸出已匹配的部分  
  }
 }
}

輸出結果:

java

Java

JAVA

使用Pattern.COMMENTS(?x)的例子:

import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ReFlags_Comments {
 public static void main(String[] args) {
  /*
   * 不使用Pattern.COMMENTS(不啟動註釋)
   */
         String s="123";
         Pattern p1=Pattern.compile(" (\\d+)+#test comments");
         Matcher m1=p1.matcher(s);
         System.out.println(m1.matches());//false
         /*
                    * 正則表達式中使用啟動註釋的標記
          */
         Pattern p2=Pattern.compile("(?x) (\\d+)+#test comments");
         Matcher m2=p2.matcher(s);
         System.out.println(m2.matches());//true
         /*
               * 參數中使用Pattern.COMMENTS以啟動註釋
          */
         Pattern p3=Pattern.compile("  (\\d+)+#test comments",Pattern.COMMENTS);
         Matcher m3=p3.matcher(s);
         System.out.println(m3.matches());//true 
 }
}

運行結果:

false

true

true

Pattern.compile函數的相關解釋

Pattern.compile函數:

Pattern Pattern.compile(String regex, int flag)

flag的取值范圍如下:

  • Pattern.CANON_EQ:當且僅當兩個字符的”正規分解(canonical decomposition)”都完全相同的情況下,才認定匹配。比如用瞭這個標志之後,表達 式”a\u030A”會匹配”?”。默認情況下,不考慮”規范相等性(canonical equivalence)”。
  • Pattern.CASE_INSENSITIVE: 默認情況下,大小寫不敏感的匹配隻適用於US-ASCII字符集。這個標志能讓表達式忽略大小寫進行匹配。要想對Unicode字符進行大小不明感的匹 配,隻要將UNICODE_CASE與這個標志合起來就行瞭。
  • Pattern.COMMENTS: 在這種模式下,匹配時會忽略(正則表達式裡的)空格字符(不是指表達式裡的”\\s”,而是指表達式裡的空格,tab,回車之類)。註釋從#開始,一直到這行結束。可以通過嵌入式的標志來啟用Unix行模式。
  • Pattern.DOTALL: 在這種模式下,表達式’.’可以匹配任意字符,包括表示一行的結束符。默認情況下,表達式’.’不匹配行的結束符。
  • Pattern.MULTILINE: 在這種模式下,’^’和’$’分別匹配一行的開始和結束。此外,’^’仍然匹配字符串的開始,’$’也匹配字符串的結束。默認情況下,這兩個表達式僅僅匹配字符串的開始和結束。
  • Pattern.UNICODE_CASE: 在這個模式下,如果你還啟用瞭CASE_INSENSITIVE標志,那麼它會對Unicode字符進行大小寫不明感的匹配。默認情況下,大小寫不敏感的匹配隻適用於US-ASCII字符集。
  • Pattern.UNIX_LINES(?d) 在這個模式下,隻有’\n’才被認作一行的中止,並且與’.’,’^’,以及’$’進行匹配。

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。

推薦閱讀: