最近,我抽空改成SyntaxHighlighter。由於coolcode外掛程式的開頭標籤是
<coolcode>
或者[coolcode]這樣的,而SyntaxHighlighter是
[code lang="php"]
這樣的(或者其他)。遂只能想辦法把老的格式轉化成新的格式。當然,肯定用到Regex了。
原來的代碼高亮開頭標識為
<coolcode lang="php" download="123.php" linenum="on"><coolcode lang="php" linenum="off"><coolcode lang="php">
這種類型的,
而SyntaxHighlighter的標識為
[code lang="php"]
那根據要求寫的Regex為
<coolcode lang="[a-z]+".*?>
解釋一下 複製代碼 代碼如下:[a-z]+ 匹配 php,javascript,cpp,sql,css 等,後面的.*?中的 .表示任何除了換行之外的字元,而*表示0次或者無數次,*+這些表述次數的符號後面接的?標識非貪婪模式
看圖,這個正則可以實現上述要求了。
但是,問題還沒解決,我們還有一種情況沒考慮,那就是
<coolcode
後面不一定接的就是lang="php"這樣的屬性啊,有可能是download,也有可能是linenum="on/off"啊,所以,我們的正則還需要改。
CFC4N把正則改為
<coolcode.*?lang="[a-z]+".*?>
如下
細心的朋友可能看出來圖中匹配的紅色框內多出了
<coolcode
,意思也就是說,前面的
<coolcode>
需要排除掉。如何排除呢?聰明的你肯定立刻想到.這個萬能字元替換成非<>兩個符號的規則,好,CFC4N立刻修改一下。
修改之後的正則為
<coolcode.*?lang="[a-z]+".*?>
果然,匹配正常了。結果見。
到這裡,問題似乎解決了,可是,當初糊塗的我,把coolcode的兩種開頭標識都用了,那就是
<coolcode
和[coolcode,那麼,看官您認為這個正則該如何改寫呢?
沒錯,無非就是開頭,結尾的標識考慮兩種情況<和[,那麼正則就好改了。(別忘了排除規則裡的符號哦)
[<\[]coolcode[^<>\[\]]*?lang="[a-z]+"[^<>\[\]]*?[>\]]
嗯,好,我們來看下效果:
很好很完美。
下面,就可以去執行了。
可是,我遇到一個很意外的事情。居然發現老的代碼裡包含這樣的格式
[coolcode linenum=\"off\" lang=\"cpp\"]<coolcode download=\"\" lang=\"cpp\" linenum="off">
呃,問題在這裡了,只是多了個逸出字元\罷了,那麼,改起來,也簡單。也就是允許\出現0次或者一次,而標識0次或者1次的符號為?,那麼我們直接在\後面加個?,也就是改成這樣\?就可以了嗎?
顯然,不是。在Regex裡,\也表示轉義,那麼,匹配\的話,也得轉義一下\,則應該為\\? 這樣才對。
修改後正則為
[<\[]coolcode[^<>\[\]]*?lang=\\?"[a-z]+\\?"[^<>\[\]]*?[>\]]
匹配結果見:
現在,大功告成了。我們可以進行轉換了。關於轉換,我們可以用兩種方法。
•Mysql的REPLACE函數,單個的去替換
<coolcode lang="php/cpp/javascript/sql/css等" download="name" linenum="on/off">
為對應的
[code lang="php/cpp/javascript/sql/css等"]
,這樣操作,省的去寫程式,取出,替換,再寫入了,缺點是量大,手工也挺累,體力活。mysql僅僅支援正則查詢,不支援正則查詢的替換,我們也可以構造聯合嵌套的SQL來替換正則匹配的字串,但是無法取出php/cpp/javascrip這樣的語言標記,替換為新的語言標記。也就是說,mysql不支援Regex的反向引用。
•PHP讀資料庫,替換,再寫入。PHP的preg_replace函數支援反向引用(preg_replace不支援自訂群組名的反向引用),我們只好寫個查詢語句,查詢包含coolcode標識的文章,然後再替換,當然,直接查詢包含coolcode的文章可能太多,我們也可以寫個MYSQL支援的POSIX正則引擎的運算式,來匹配使用coolcode標籤的文章,再來替換,寫入。以減少文章的操作量。當然Regex也會浪費很大的資源。
當然,在PHP代碼的preg_replace函數使用上面的正則,進行反向引用時,需要對正則稍作修改。給lang=""中間的一個組名。正則修改為
[<\[]coolcode[^<>\[\]]*?lang=\\?"([a-z]+\\?)"[^<>\[\]]*?[>\]]
PHP的替換代碼為
$contents = preg_replace('/[<|[]coolcode[^>[\]]*?lang=\\\\?"([^"]+?)\\\\?"[^>[\]]*?[>|\]]/i','[code lang="\\1"',$contents);
其中正則的i修飾符標識不區分大小寫。
還有,別忘記了coolcode的結束標識和[/coolcode]要替換成[/code]。
mysql裡執行兩句sql即可 複製代碼 代碼如下:UPDATE wp_posts SET post_content = REPLACE(post_content,'</coolcode>','[\/code]'); //注意後面多了個反斜線,記得去掉
UPDATE wp_posts SET post_content = REPLACE(post_content,'[/coolcode]','[\/code]'); //注意後面多了個反斜線,記得去掉
總結:
本文牽扯的Regex並無進階用法,都是平常很簡單的用法。關於PCRE引擎Regex的遞迴(迭代),組命名,反向引用,零寬斷言等,CFC4N會在以後的時間裡,找合適的例子寫出來。當然,這些進階用法,CFC4N在幫朋友寫的Regex裡已經用到了,大家可以看看,歡迎批評和指點。
PS:如果需要coolcode轉SyntaxHighlighter的完整PHP程式,留言即可,我抽空寫出來。