iOS在4.0裡也可以用Regex了,功能也是相當強大。
曾以為自己已經掌握了Regex,這2天才明白Regex有多複雜,原來還有專門厚厚的一本書《Regex入門經典》。
小程式的目標是匹配PGN棋譜中的著法部分。
規則就是:數字表示第幾回合,後面有個小句點,然後紅方著法,可以跟評註,然後是黑方著法,可以跟評註。評註是放在花括弧中的,可以單行,也可以多行。
1. 炮八平五 炮8平5
{ 紅方首著架中炮必走之著,聶棋聖還架中炮拼兌子力,戰術對頭。}
2. 炮五進五 象7進5
3. 炮二平五
{ 再架中炮也屬正著,如改走馬八進七,則象5退7,紅方帥府受攻,
當然若紅方仍再架中炮拼兌,那麼失去雙炮就難有作用了。
} 馬8進7
... ...
人工很容易讀的棋譜,但用程式設計語言描述起來就不太容易了,最後寫出來的Regex是一段天書:
\d+\.\s+\w{4}\s*(\{(.|[\r\n])*?\})?\s*\w{4}\s*(\{(.|[\r\n])*?\})?
放在iOS裡還要加上轉義符,就成了這樣:
\\d+\\.\\s+\\w{4}\\s*(\\{(.|[\\r\\n])*?\\})?\\s*\\w{4}\\s*(\\{(.|[\\r\\n])*?\\})?
由於程式員還要提取出來回合數,紅方著法,紅方評註,黑方著法,黑方評註等重要訊息,所以還要在上面的運算式裡加上()這類的分組資訊,最後的運算式更複雜了:
@"(\\d+)\\.\\s+(\\w{4})\\s*(\\{(?:.|[\\r\\n])*?\\})?\\s*(?:(\\w{4})\\s*(\\{(?:.|[\\r\\n])*?\\})?)?";
在編程式前,用了一款Windows上的小軟體RegexBuddy把Regex測試好許多遍才通過,如果直接上機調試會累個半死。
先把較為簡單的Regex的意思折開來理解一下:
\d+\. // 一個整數,後面跟著小圓點
\s+ // 1個以上的分隔字元
\w{4} // 4個字元
\s* // 0個以上的分隔字元
(\{(.|[\r\n])*?\})? // 一行或多行的放在花括弧中{}的注釋,紅方的招法評註
\s* // 0個以上的分隔字元
( // 最後一回合時,可以只有紅方的招法
\w{4} // 4個字元
\s* // 0個以上的分隔字元
(\{(.|[\r\n])*?\})? // 一行或多行的放在花括弧中{}的注釋,黑方的招法評註
)?
這裡面涉及到的Regex文法:
\d 匹配任何一個數字,即[0-9]
\d+表示1個以上的數字
(\d+) 強行加上小括弧,分組,相當把這個值緩衝起來,在代碼裡用[myString substringWithRange:[match rangeAtIndex:1]]可以提取出來回合數
\. 表示小句點
\s 表示分隔字元,包括空格、定位字元和分行符號
\s* 0個或多個分隔字元
\w 表示字母、數字和底線,這裡還包括Unicode字元,不同的語言裡有些不同
\w{4} 表示4個非空白字元
. 表示任何一個字元,不包括分行符號
.* 表示任何多個字元,當然也不包括分行符號了
(.|[\r\n])* 表示任何多個字元,包括分行符號,貪婪掃描
(.|[\r\n])*? 表示任何多個字元,包括分行符號,懶惰掃描
(?:.|[\\r\\n]) 以(?:開頭時的分組資訊,表示不讀取到緩衝器裡,避免rangeAtIndex調用時產生副作用,後面還會遇到這樣的(?:寫法
\{(.|[\r\n])*?\} 一條放在花括弧中間的備註陳述式,由於包含了分行符號,所以支援多行注釋
(\{(.|[\r\n])*?\})? 可以沒有注釋,也可以有1條注釋
在iOS裡用NSRegularExpression類來解析Regex,主要用法是:
NSString *regTags = @"\\[(\\w*)\\s*\\\"(.*)\\\"]\\s*\\n"; // 設計好的Regex,最好先在小工具裡實驗好
NSRegularExpression *regex = [NSRegularExpressionregularExpressionWithPattern:regTags
options:NSRegularExpressionCaseInsensitive // 還可以加一些選項,例如:不區分大小寫
error:&error];
// 執行匹配的過程
NSArray *matches = [regex matchesInString:pgnText
options:0
range:NSMakeRange(0, [pgnText length])];
// 用下面的辦法來遍曆每一條匹配記錄
for (NSTextCheckingResult *match in matches) {
NSRange matchRange = [match range];
NSString *tagString = [pgnText substringWithRange:matchRange]; // 整個匹配串
NSRange r1 = [match rangeAtIndex:1];
if (!NSEqualRanges(r1, NSMakeRange(NSNotFound, 0))) { // 由時分組1可能沒有找到相應的匹配,用這種辦法來判斷 NSString *tagName = [pgnText substringWithRange:r1]; // 分組1所對應的串
}
NSString *tagValue = [pgnText substringWithRange:[match rangeAtIndex:2]]; // 分組2所對應的串
}
C#中的用法:
Regex reg = new Regex(@"\d+\.\s+(\w{4})\s*(?:\{(?:.|[\r\n])*?\})?\s*(\w{4})\s*(?:\{(?:.|[\r\n])*?\})?");
MatchCollection collection = reg.Matches(pgnText);
GroupCollection groupCollection;
foreach (Match match in collection)
{
//Console.WriteLine(match.ToString());
groupCollection = match.Groups;
string redMove = groupCollection[1].Value;
if (!redMove.Equals(""))
chMoves.Add(redMove);
string blackMove = groupCollection[2].Value;
if (!blackMove.Equals(""))
chMoves.Add(blackMove);
}
另外可參考的文章:
在下面這個頁面裡介紹了Regex的貪婪和懶惰的問題以及一些進階用法
http://blog.benhuoer.com/posts/crucial-concepts-behind-advanced-regular-expressions.html
如何用Regex匹配C語言裡的/* ... */ 這樣的注釋
http://ostermiller.org/findcomment.html
在VeryCD上有幾本不錯的Regex的書,先磨磨刀再寫程式也不遲
http://www.verycd.com/topics/2826047/