Regex能根據設定匹配各種資料(比如:e-mail地址,電話號碼,身份中號碼等等)。Regex功能強大,使用靈活,C#,Java,JavaScript等多種語言都支援Regex。在互連網上“抓取資料”更是少不了使用Regex。今天我要說的是在C#中使用Regex自動匹配並擷取所需要的資料。
從下面是某個IP查詢網站返回查詢結果的一個部分(字串),現在就是要從這個字串中擷取“查詢結果1:”後面的“北京市 網通”。<td align="center"><ul><li>查詢結果1:北京市 網通</li><li>查詢結果2:北京市 網通</li><li>查詢結果3:北京市 網通</li></ul></td>
C#相關代碼如下:string srcString = "<td align=\"center\"><ul><li>查詢結果1:北京市 網通</li><li>查詢結果2:北京市 網通</li><li>查詢結果3:北京市 網通</li></ul></td>";
// 匹配 "<li>查詢結果1:" 與 "</li>" 之間的所有字元的Regex
string regexStr = "<li>查詢結果1:(?<key>.*?)</li>";
Regex r = new Regex(regexStr, RegexOptions.None);
Match mc = r.Match(srcString);
string dataStr = mc.Groups["key"].Value;
說明:
這裡最關鍵的是設定Regex:"<li>查詢結果1:(?<key>.*?)</li>"。
字元 |
描述 |
<key> |
根據key擷取由Regex匹配的值。 |
. |
匹配除 "\n" 之外的任何單個字元。 |
* |
匹配前面的子運算式零次或多次。 |
? |
跟在任何一個其他限制符(*, +, ?, {n}, {n,}, {n,m})後面時,匹配模式是非貪婪的;非貪婪模式儘可能少的匹配所搜尋的字串,而預設的貪婪模式則儘可能多的匹配所搜尋的字串。 |
dataStr 就是我們要得的資料:“北京市 網通”。
相關文章:使用WebClient自動填寫並提交ASP.NET頁面表單的原始碼
使用WebClient自動填寫並提交ASP.NET頁面表單
本文地址:http://www.cnblogs.com/anjou/archive/2007/03/20/681744.html