JavaRegexPattern和Matcher

來源:互聯網
上載者:User

1.簡介:
java.util.regex是一個用Regex所訂製的模式來對字串進行匹配工作的類庫包。
它包括兩個類:Pattern和Matcher Pattern,一個Pattern是一個Regex經編譯後的表現模式。
Matcher 一個Matcher對象是一個狀態機器,它依據Pattern對象做為匹配模式對字串展開匹配檢查。
首先一個Pattern執行個體訂製了一個所用文法與PERL的類似的Regex經編譯後的模式,然後一個Matcher執行個體在這個給定的Pattern執行個體的模式控制下進行字串的匹配工作。
以下我們就分別來看看這兩個類:

2.Pattern類:
Pattern的方法如下:

static Pattern compile(String regex)
將給定的Regex編譯並賦予給Pattern類

static Pattern compile(String regex, int flags)
同上,但增加flag參數的指定,可選的flag參數包括:CASE INSENSITIVE,MULTILINE,DOTALL,UNICODE CASE, CANON EQ

int flags()
返回當前Pattern的匹配flag參數。
Matcher matcher(CharSequence input)

產生一個給定命名的Matcher對象 。
static boolean matches(String regex, CharSequence input)
編譯給定的Regex並且對輸入的字串以該Regex為模開展匹配,該方法適合於該Regex只會使用一次的情況,也就是只進行一次匹配工作,因為這種情況下並不需要產生一個Matcher執行個體。

String pattern()
返回該Patter對象所編譯的Regex。
String[] split(CharSequence input)

將目標字串按照Pattern裡所包含的Regex為模進行分割。

String[] split(CharSequence input, int limit)

作用同上,增加參數limit目的在於要指定分割的段數,如將limi設為2,那麼目標字串將根據Regex分為割為兩段。
一個Regex,也就是一串有特定意義的字元,必須首先要編譯成為一個Pattern類的執行個體,這個Pattern對象將會使用matcher()方法來產生一個Matcher執行個體,接著便可以使用該 Matcher執行個體以編譯的Regex為基礎對目標字串進行匹配工作,多個Matcher是可以共用一個Pattern對象的。
現在我們先來看一個簡單的例子,再通過分析它來瞭解怎樣產生一個Pattern對象並且編譯一個Regex,最後根據這個Regex將目標字串進行分割:

import java.util.regex.*; public class Replacement{ public static void main(String[] args) throws Exception { // 產生一個Pattern,同時編譯一個Regex Pattern p = Pattern.compile("[/]+"); //用Pattern的split()方法把字串按"/"分割 String[] result = p.split( "Kevin has seen《LEON》seveal times,because it is a good film." +"/ 凱文已經看過《這個殺手不太冷》幾次了,因為它是一部" +"好電影。/名詞:凱文。"); for (int i=0; i<result.length; i++) System.out.println(result[i]); } } 

輸出結果為:
Kevin has seen《LEON》seveal times,because it is a good film.
凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。
名詞:凱文。
很明顯,該程式將字串按"/"進行了分段,我們以下再使用 split(CharSequence input, int limit)方法來指定分段的段數,程式改動為:
tring[] result = p.split("Kevin has seen《LEON》seveal times,because it is a good film./ 凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。/名詞:凱文。",2);
這裡面的參數"2"表明將目標語句分為兩段。
輸出結果則為:
Kevin has seen《LEON》seveal times,because it is a good film.
凱文已經看過《這個殺手不太冷》幾次了,因為它是一部好電影。/名詞:凱文。


由上面的例子,我們可以比較出java.util.regex包在構造Pattern對象以及編譯指定的Regex的實現手法與Jakarta-ORO 包在完成同樣工作時的差別,Jakarta-ORO 包要先構造一個PatternCompiler類對象接著產生一個Pattern對象,再將Regex用該PatternCompiler類的compile()方法來將所需的Regex編譯賦予Pattern類:
PatternCompiler orocom=new Perl5Compiler();
Pattern pattern=orocom.compile("REGULAR EXPRESSIONS");
PatternMatcher matcher=new Perl5Matcher();
但是在java.util.regex包裡,我們僅需產生一個Pattern類,直接使用它的compile()方法就可以達到同樣的效果:
Pattern p = Pattern.compile("[/]+");
因此似乎java.util.regex的構造法比Jakarta-ORO更為簡潔並容易理解。

3.Matcher類:
Matcher方法如下:

Matcher appendReplacement(StringBuffer sb, String replacement)
將當前匹配子串替換為指定字串,並且將替換後的子串以及其之前到上次匹配子串之後的字串段添加到一個StringBuffer對象裡。
StringBuffer appendTail(StringBuffer sb)
將最後一次匹配工作後剩餘的字串添加到一個StringBuffer對象裡。
int end()
返回當前匹配的子串的最後一個字元在原目標字串中的索引位置 。
int end(int group)
返回與匹配模式裡指定的組相匹配的子串最後一個字元的位置。
boolean find()
嘗試在目標字串裡尋找下一個匹配子串。
boolean find(int start)
重設Matcher對象,並且嘗試在目標字串裡從指定的位置開始尋找下一個匹配的子串。
String group()
返回當前尋找而獲得的與組匹配的所有子串內容
String group(int group)
返回當前尋找而獲得的與指定的組匹配的子串內容
int groupCount()
返回當前尋找所獲得的匹配組的數量。
boolean lookingAt()
檢測目標字串是否以匹配的子串起始。
boolean matches()
嘗試對整個目標字元展開匹配檢測,也就是只有整個目標字串完全符合時才返回真值。
Pattern pattern()
返回該Matcher對象的現有匹配模式,也就是對應的Pattern 對象。
String replaceAll(String replacement)
將目標字串裡與既有模式相匹配的子串全部替換為指定的字串。
String replaceFirst(String replacement)
將目標字串裡第一個與既有模式相匹配的子串替換為指定的字串。
Matcher reset()
重設該Matcher對象。
Matcher reset(CharSequence input)
重設該Matcher對象並且指定一個新的目標字串。
int start()
返回當前尋找所獲子串的開始字元在原目標字串中的位置。
int start(int group)
返回當前尋找所獲得的和指定組匹配的子串的第一個字元在原目標字串中的位置。
(光看方法的解釋是不是很不好理解?不要急,待會結合例子就比較容易明白了)

一個Matcher執行個體是被用來對目標字串進行基於既有模式(也就是一個給定的Pattern所編譯的Regex)進行匹配尋找的,所有往Matcher的輸入都是通過CharSequence介面提供的,這樣做的目的在於可以支援對從多元化的資料來源所提供的資料進行匹配工作。
我們分別來看看各方法的使用:
matches()/lookingAt ()/find():
一個Matcher對象是由一個Pattern對象調用其matcher()方法而產生的,一旦該Matcher對象產生,它就可以進行三種不同的匹配尋找操作:
matches()方法嘗試對整個目標字元展開匹配檢測,也就是只有整個目標字串完全符合時才返回真值。
lookingAt ()方法將檢測目標字串是否以匹配的子串起始。
find()方法嘗試在目標字串裡尋找下一個匹配子串。
以上三個方法都將返回一個布爾值來表明成功與否。

replaceAll ()/appendReplacement()/appendTail():
Matcher類同時提供了四個將匹配子串替換成指定字串的方法:
replaceAll()
replaceFirst()
appendReplacement()
appendTail()
replaceAll()與replaceFirst()的用法都比較簡單,請看上面方法的解釋。

我們主要重點瞭解一下appendReplacement()和appendTail()方法。
appendReplacement(StringBuffer sb, String replacement)將當前匹配子串替換為指定字串,並且將替換後的子串以及其之前到上次匹配子串之後的字串段添加到一個StringBuffer對象裡,而appendTail(StringBuffer sb)方法則將最後一次匹配工作後剩餘的字串添加到一個StringBuffer對象裡。
例如,有字串fatcatfatcatfat,假設既有Regex模式為"cat",第一次匹配後調用appendReplacement(sb,"dog"),那麼這時StringBuffer sb的內容為fatdog,也就是fatcat中的cat被替換為dog並且與匹配子串前的內容加到sb裡,而第二次匹配後調用appendReplacement(sb,"dog"),那麼sb的內容就變為fatdogfatdog,如果最後再調用一次appendTail(sb),那麼sb最終的內容將是fatdogfatdogfat。
還是有點模糊?那麼我們來看個簡單的程式:

//該例將把句子裡的"Kelvin"改為"Kevin" import java.util.regex.*; public class MatcherTest{ public static void main(String[] args) throws Exception { //產生Pattern對象並且編譯一個簡單的Regex"Kelvin" Pattern p = Pattern.compile("Kevin"); //用Pattern類的matcher()方法產生一個Matcher對象 Matcher m = p.matcher("Kelvin Li and Kelvin Chan are both working in Kelvin Chen's KelvinSoftShop company");StringBuffer sb = new StringBuffer(); int i=0; //使用find()方法尋找第一個匹配的對象 boolean result = m.find(); //使用迴圈將句子裡所有的kelvin找出並替換再將內容加到sb裡 while(result) { i++; m.appendReplacement(sb, "Kevin"); System.out.println("第"+i+"次匹配後sb的內容是:"+sb); //繼續尋找下一個匹配對象 result = m.find(); } //最後調用appendTail()方法將最後一次匹配後的剩餘字串加到sb裡; m.appendTail(sb); System.out.println("調用m.appendTail(sb)後sb的最終內容是:"+ sb.toString()); } } 

 

最終輸出結果為:
第1次匹配後sb的內容是:Kevin
第2次匹配後sb的內容是:Kevin Li and Kevin
第3次匹配後sb的內容是:Kevin Li and Kevin Chan are both working in Kevin
第4次匹配後sb的內容是:Kevin Li and Kevin Chan are both working in Kevin Chen's Kevin
調用m.appendTail(sb)後sb的最終內容是:Kevin Li and Kevin Chan are both working in Kevin Chen's KevinSoftShop company.
看了上面這個常式是否對appendReplacement(),appendTail()兩個方法的使用更清楚呢,如果還是不太肯定最好自己動手寫幾行代碼測試一下。
group()/group(int group)/groupCount():
該系列方法與我們在上篇介紹的Jakarta-ORO中的MatchResult .group()方法類似,都是要返回與組匹配的子串內容,下面代碼將很好解釋其用法:

import java.util.regex.*; public class GroupTest{ public static void main(String[] args) throws Exception { Pattern p = Pattern.compile("(ca)(t)"); Matcher m = p.matcher("one cat,two cats in the yard"); StringBuffer sb = new StringBuffer(); boolean result = m.find(); System.out.println("該次尋找獲得匹配組的數量為:"+m.groupCount()); for(int i=1;i<=m } } 

 

輸出為:
該次尋找獲得匹配組的數量為:2
第1組的子串內容為:ca
第2組的子串內容為:t
Matcher對象的其他方法因比較好理解且由於篇幅有限,請讀者自己編程驗證。

4.一個檢驗Email地址的小程式:
最後我們來看一個檢驗Email地址的常式,該程式是用來檢驗一個輸入的EMAIL地址裡所包含的字元是否合法,雖然這不是一個完整的EMAIL地址檢驗程式,它不能檢驗所有可能出現的情況,但在必要時您可以在其基礎上增加所需功能。

import java.util.regex.*; public class Email { public static void main(String[] args) throws Exception { String input = args[0]; //檢測輸入的EMAIL地址是否以 非法符號"."或"@"作為起始字元 Pattern p = Pattern.compile("^.|^@"); Matcher m = p.matcher(input); if (m //檢測是否以"www."為起始 p = Pattern.compile("^www."); m = p.matcher(input); if (m //檢測是否包含非法字元 p = Pattern.compile("[^A-Za-z0-9.@_-~#]+"); m = p.matcher(input); StringBuffer sb = new StringBuffer(); boolean result = m.find(); boolean deletedIllegalChars = false; while(result) { //如果找到了非法字元那麼就設下標記 deletedIllegalChars = true; //如果裡麵包含非法字元如冒號雙引號等,那麼就把他們消去,加到SB裡面 m.appendReplacement(sb, ""); result = m.find(); } m.appendTail(sb); input = sb.toString(); if (deletedIllegalChars) { System.out.println("輸入的EMAIL地址裡包含有冒號、逗號等非法字元,請修改"); System.out.println("您現在的輸入為: "+args[0]); System.out.println("修改後合法的地址應類似: "+input); } } } 

 

例如,我們在命令列輸入:java Email www.kevin@163.net
那麼輸出結果將會是:EMAIL地址不能以'www.'起始
如果輸入的EMAIL為@kevin@163.net
則輸出為:EMAIL地址不能以'.'或'@'作為起始字元
當輸入為:cgjmail#$%@163.net
那麼輸出就是:
輸入的EMAIL地址裡包含有冒號、逗號等非法字元,請修改
您現在的輸入為: cgjmail#$%@163.net
修改後合法的地址應類似: cgjmail@163.net

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.