JAVA正則表達式的基本使用教程

正則表達式語法

最簡單的正則表達式就是字符串,比如hello world也是一個正則表達式,匹配”hello world”字符串。在這基礎上我們加入其他符號表示,以滿足我們匹配一定格式的字符串而不是與正則表達式一模一樣的字符串,這些符號可以大致分為[]、{}、(),而其他的一些符號(如.,+,*,\\d等等)其實都可以認為是他們的簡寫形式。

[]

[]表示匹配一個在[]中包含的任一字符,如[abc]表示匹配a或者b或者c。

可以使用-來表示一個字符區間,[a-c]與[abc]是等效的;同時可以寫多個區間,也可以寫完區間後再加入字符,如[a-z0-9A]表示匹配a-z或者0-9或者A中的任一字符;

可以使用^來取補集,即[^a-c]表示匹配除瞭abc的其他任何字符、[^0-9]表示匹配除瞭數字的任何字符、[^a]表示匹配除瞭a的其他任何字符;

一些與[]等效的簡寫方法:

簡寫 意義
. 匹配除”\r\n”之外的任何單個字符。
\d 數字字符匹配。等效於 [0-9]。
\D 非數字字符匹配。等效於 [^0-9]。
\s 匹配任何空白字符,包括空格、制表符、換頁符等。與 [ \f\n\r\t\v] 等效。
\S 匹配任何非空白字符。與 [^ \f\n\r\t\v] 等效。
\w 匹配任何字類字符,包括下劃線。與[A-Za-z0-9_]等效。
\W 與任何非單詞字符匹配。與[^A-Za-z0-9_]等效。

另外,由於java中**\\** 表示其他語言的一個\,所以上面的在java中均需要寫成\\d、\\D等等。

{}

{}表示對其前面的字符或子表達式匹配的次數。

表達式 意義
{n} n 是非負整數。正好匹配 n 次。如o{2}匹配兩次o
{n,} n 是非負整數。至少匹配 n 次。
{n,m} mn 是非負整數,其中 n <= m。匹配至少 n 次,至多 m 次。
表達式 意義
* 零次或多次匹配前面的字符或子表達式,等效於 {0,}。
+ 一次或多次匹配前面的字符或子表達式, 等效於 {1,}。
? 零次或一次匹配前面的字符或子表達式, 等效於 {0,1}。

()

()表示一個捕獲組,由此可以使用()來將一個表達式拆分為多個組,實現將一個字符串中需要的信息提取出來。在()中的一開始加入?<name>可以實現對組命名,從而更方便地提取信息。

如(?[A-Za-z]+)表示一個至少由一個字母組成的人名,在獲取匹配到的人名時隻需要用matcher.group(“name”)即可得到匹配結果。

JAVA寫法

模板

String pattern = "[a-z]+";//正則表達式
Pattern r = Pattern.compile(pattern);//將表達式編譯
Matcher matcher = r.matcher(text);//將text字符串作為匹配的字符串
matcher.find();//匹配
value1 = matcher.group("value1");//提取信息

例子

描述

根據時間精度的不同,可能出現以下四種認定為正確的郵件信息格式:

username@domain-yyyy-mm-dd

例:[email protected]

username@domain-yyyy-mm-dd-hh

例:[email protected]

username@domain-yyyy-mm-dd-hh:mimi

例:[email protected]:01

username@domain-yyyy-mm-dd-hh:mimi:ss

例:myname–[email protected]:01:20

其中

username@domain 為

郵件發送者的郵箱地址

username 為用戶名,domain 為域名
yyyy-mm-dd / yyyy-mm-dd-hh / yyyy-mm-dd-hh:mimi / yyyy-mm-dd-hh:mimi:ss 為

發送時間

‘y’ 代表一位年份數字,‘m’ 代表一位月份數字,‘d’ 代表一位日期數字,‘h’ 代表一位小時數字,‘mi’ 代表一位分鐘數字,‘s’ 代表一位秒數數字
username 為隻包含大小寫字母、- 的長度不為零的字符串,對於大小寫不敏感。

domain 為隻包含大小寫字母、數字、. 的長度不為零的字符串,對大小寫敏感。

寫法

String pattern = "(?<username>[A-Za-z-]+)@(?<domain>[A-Za-z0-9.]+)-(?<yyyy>\\d{4})-(?<mm>\\d{2})-(?<dd>\\d{2})(-)?(?<hh>\\d{2})?(:)?(?<mimi>\\d{2})?(:)?(?<ss>\\d{2})?";
  String text = "[email protected]:01:20";
  Pattern r = Pattern.compile(pattern);
  Matcher matcher = r.matcher(text);
  if (matcher.find()) {
   System.out.println("username:"+matcher.group("username"));
   System.out.println("domain:"+matcher.group("domain"));
   System.out.println("yyyy:"+matcher.group("yyyy"));
   System.out.println("mm:"+matcher.group("mm"));
   System.out.println("dd:"+matcher.group("dd"));
   System.out.println("hh:"+matcher.group("hh"));
   System.out.println("mimi:"+matcher.group("mimi"));
   System.out.println("ss:"+matcher.group("ss"));
  }

將text換成4種格式的郵箱均可得到正確結果,不存在的(hh、mimi、ss可能不存在)則為null。

運行結果如下:

username:myname–lethean
domain:buaa.edu.cn
yyyy:2020
mm:12
dd:20
hh:15
mimi:01
ss:20

如果以第3種格式輸入,即text為[email protected]:01時,輸出如下:

username:Lethean
domain:buaa.edu.cn
yyyy:2020
mm:12
dd:02
hh:15
mimi:01
ss:null

ss因為在該格式中沒有所以為空。

例子改

描述

郵件信息輸入格式改為:(ss:mimi:hh-)dd-mm-yyyy-username@domain-place

根據時間精度的不同,可能出現以下四種認定為正確的郵件信息格式:

dd-mm-yyyy-username@domain-place

例:[email protected]

hh-dd-mm-yyyy-username@domain-place

例:[email protected]

mimi:hh-dd-mm-yyyy-username@domain-place

例:00:[email protected]

ss:mimi:hh-dd-mm-yyyy-username@domain-place

例:01:00:[email protected]

place 是新加的域,表示地點,由英文字母組成,對大小寫敏感,即 Beijing 和 beijing 視為不一樣的地點

寫法

String pattern = "(((?<ss>\\d{2}):)?((?<mimi>\\d{2}):))?((?<hh>\\d{2})-)?(?<dd>\\d{2})-(?<mm>\\d{2})-(?<yyyy>\\d{4})-(?<username>[A-Za-z-]+)@(?<domain>[A-Za-z0-9.]+)-(?<place>[A-Za-z]+)";
String text = "01:11:[email protected]";
Pattern r = Pattern.compile(pattern);
Matcher matcher = r.matcher(text);
if (matcher.find()) {
 System.out.println("username:"+matcher.group("username"));
 System.out.println("domain:"+matcher.group("domain"));
 System.out.println("yyyy:"+matcher.group("yyyy"));
 System.out.println("mm:"+matcher.group("mm"));
 System.out.println("dd:"+matcher.group("dd"));
 System.out.println("hh:"+matcher.group("hh"));
 System.out.println("mimi:"+matcher.group("mimi"));
 System.out.println("ss:"+matcher.group("ss"));
 System.out.println("place:"+matcher.group("place"));
}

註意前面的(((?<ss>\\d{2}):)?((?<mimi>\\d{2}):))?必須為嵌套的形式,否則匹配時會出現把mimi匹配成ss的錯誤(因為兩者的匹配格式相同,先匹配給瞭ss,但是嵌套之後就不會出現這種情況)。

運行結果如下:

username:abc
domain:buaa.edu.cn
yyyy:2020
mm:12
dd:02
hh:03
mimi:11
ss:01
place:wuhu

如果將text改為11:[email protected],輸出如下,ss不匹配。

username:abc
domain:buaa.edu.cn
yyyy:2020
mm:12
dd:02
hh:03
mimi:11
ss:null
place:wuhu

總結

到此這篇關於JAVA正則表達式使用的文章就介紹到這瞭,更多相關JAVA正則表達式內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: