最近做的項目又要用到Regex,但是因為很久沒寫了,手有點生,程式調試了好幾次都沒有達到預期匹配目標。就這樣修改、編譯、測試,來來回回重複了好幾次,真是太麻煩了。
忽然想起來,以前在網上下載過一個Regex的測試載入器,忘了叫什麼名字,非常方便。可是我在硬碟裡面又找不到了。於是決定自己動手寫一個,應該也不是很難,預期目標是能夠列出所有匹配項,並且對於每個匹配項列出所有的匹配組(Group)。
幾經折騰,終於完工了,有測試載入器還是爽多了,不必在IDE裡反覆的修改、編譯了。而且,最大的好處就是,寫Regular Expression不再是一件痛苦的事情了,沒事的時候,就可以開啟工具練練手。
貼張:
圖1. 提取出Baidu首頁的所有連結及連結文字
今天還解決了一個困擾我很久的問題,就是關於Regex中“負向預查”的使用。定義:(?=pattern)是正向預查,在任何匹配 pattern 的字串開始處匹配尋找字串。而(?!pattern)是負向預查,在任何不匹配 pattern 的字串開始處匹配尋找字串。負向預查有時會用在對[^]的擴充,[^]只是一些字元,而?!可以使整個字串。
我就想當然的認為正則式:“aaa(?!bbb)ccc”應該可以匹配字串“aaaQQQccc”,但是這種匹配卻失敗了。後來通過MSDN我瞭解到“負向預查”是不消耗字元的,也就是說QQQ匹配bbb失敗以後,其實不是接著從“c”開始匹配,而是再從"Q"開始。
所以修改正則式為aaa(?!bbb)(.*?)ccc,測試!,匹配成功了。(註:問號表示非貪婪匹配。)
:
附:Regex測試載入器的原始碼
程式下載(請改名為exe)
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Text;
using System.Windows.Forms;
using System.Text.RegularExpressions;
namespace WindowsApplication1
...{
public partial class Form1 : Form
...{
public Form1()
...{
InitializeComponent();
}
private void button1_Click_1(object sender, EventArgs e)
...{
string text = textBox1.Text;
string pattern = textBox2.Text;
Regex reg = null;
Match mc = null;
try
...{
RegexOptions regopts=new RegexOptions();
if(!checkBox1.Checked)regopts|=RegexOptions.IgnoreCase;
if (!checkBox2.Checked) regopts |= RegexOptions.Singleline;
else regopts |= RegexOptions.Multiline;
reg = new Regex(pattern, regopts);
mc = reg.Match(text);
}
catch (Exception ex)
...{
MessageBox.Show("錯誤的正則式:" + ex.Message);
return;
}
listView1.GridLines = true;
listView1.Clear();
listView1.Columns.Clear();
for (int i = 0; i < mc.Groups.Count; i++)
...{
listView1.Columns.Add("Group[" + i.ToString() + "]", 100);
}
while (mc.Success)
...{
ListViewItem item = new ListViewItem();
item.SubItems[0].Text = mc.Groups[0].Index.ToString() + ":" + mc.Groups[0].Value;
for (int i = 1; i < mc.Groups.Count; i++)
...{
item.SubItems.Add(mc.Groups[i] .Index.ToString()+ ":" + mc.Groups[i].Value);
}
listView1.Items.Add(item);
mc = mc.NextMatch();
}
listView1.Update();
}
}
}