Regex在網路編程中的運用(4)

來源:互聯網
上載者:User
編程|網路|正則   Regex在UBB論壇中的應用

  一、UBB代碼的概念

  什麼是UBB代碼?

  UBB代碼是HTML的一個變種。一般情況下,UBB論壇不允許你使用HTML代碼,而只能用UBB代碼替代HTML代碼。

  UBB代碼是一套由流行的UBB標籤組成了固定代碼,代碼有統一的格式。使用者只要遵循代碼規則就可以實現使用者想要的功能。如:

  想要顯示粗體的how are you 字樣,就應該輸入 how are you而不是輸入<b>how are you</b>

  你也許會問:ASP是怎樣把 how are you轉換為<b>how are you</b>的呢?

  回答這個問題就是:用Regex。

  二、執行個體分析

  1)在字串中精確尋找連結地址

((http|https|ftp):(\/\/|\\\\)((\w)+[.]){1,}(net|com|cn|org|cc|tv|[0-9]{1,3})(((\/[\~]*|\\[\~]*)

  (\w)+)|[.](\w)+)*(((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*)

  我們知道,連結地址一般以http或者https或者ftp等形式出現。初步總結一下就是,連結地址必須符合如下條件:

  條件1

   以http://或者https://或者ftp://等開頭(當然還有其它形式,這裡只列出主要的)

  條件2

   http://後面必須跟一個單詞字元,緊接著單詞字元後面的是"."(這樣的組合必須出現一次或多次)。緊跟著"."後面的是網域名稱尾碼(如net或者com或者cn等,如果是以IP地址的形式出現就可以是數字)

  條件3

   出現完整的連結地址後,還可以出現下一級或者更多級的目錄(還要注意個人首頁的地址有可能出現"~"符號)

  條件4

   連結地址末尾可以帶參數。如典型的頁數?PageNo=2&action=display等

  現在我們用下面的代碼來逐個匹配上面的條件--

  1、((http|https|ftp):(\/\/|\\\\) 滿足條件1

  表示http:// http:\\ https:// https:\\ ftp:// ftp:\\都匹配(在這裡考慮了某些使用者可能把"//"輸成"\\"的易發性錯誤)

  注意:"|"表示"或者","\"是逸出字元。"\/\/"表示"//","\\\\"表示"\\"

  2、((\w)+[.]){1,}(net|com|cn|org|cc|tv|[0-9]{1,3}) 滿足條件2

   "((\w)+[.]){1,}"表示一個單詞字元加一個點號可以出現1次或者多次(這裡考慮了某些使用者喜歡省略www而將http://www.w3c.com寫成http://w3c.com)

  "(net|com|cn|org|cc|tv|[0-9]{1,3})"表示必須要以net或者com或者cn或者org或者cc或者tv或者三位以下的數字結束

  [0-9]{1,3}表示三位以下的數字,因為ip地址的任何段不能超過255

  3、(((\/[\~]*|\\[\~]*)(\w)+)|[.](\w)+)* 滿足條件3

  "(\/[\~]*|\\[\~]*)"表示可以出現"/~"或者是"\~",(其中"[\~]*"表示 ~ 可以出現也可以不出現),因為不是每個連結地址都有下一級目錄

  "(\w)+)|[.](\w)+)"表示必須出現一個單詞字元(即目錄或者是一個帶有副檔名的檔案)

  注意:最後還有一個"*"表示上面括弧內的可以出現也可以不出現,否則就只能匹配有下一級目錄的連結地址了。

  4、(((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*)滿足條件4

  "((([?](\w)+){1}[=]*))*((\w)+){1}"表示形如"?PageNo=2"的字串可以出現也可以不出現,如果出現則只能出現一次(因為不可能有兩個"?"號出現)。

  "([\&](\w)+[\=](\w)+)*)"表示形如"&action=display"的字串可以出現也可以不出現(因為並不是每個網頁都帶有兩個以上的參數。

  整個"((([?](\w)+){1}[=]*))*((\w)+){1}([\&](\w)+[\=](\w)+)*)*"表示形如"?PageNo=2&action=display"的字串可以出現也可以不出現(即連結地址可以有參數也可以沒有參數)

  把上面的組合起來,我們就可以匹配一個比較全面的連結地址了。比用簡單的"(http:\/\/\S+)"來匹配一個連結地址要好,讀者可以自行行測試比較。當然,這段代碼還有很多不足之處,希望大家能夠繼續改進。

  2)替代典型的UBB標籤:

  我們的目的就是要把 成對的替換成<b></b>下面來看我們實現它的模板

    (\[b\])(.+)(\[\/b\])

  這裡用了"(.+)"來配匹 之間的整個字串,在替代的時候我們要寫成這樣

    str=checkexp(re,str,"<b>$2</b>")

  (注意:checkexp是我自訂的函數,將在後面給出。這個函數將把 按照我們提供的模板進行替代。)

  也許你會問這裡出現一個"$2"是什麼東東,呵注意了這個$2可是很重要的,它代表了"(.+)"所配匹的整個字串。

  為什麼是$2而不是$1、$3呢?因為$1代表(\[b\])所匹配的" "字串,$3代表(\[\/b\])所匹配的""字串,顯然這裡我們需要的是$2而不是$1$3。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。