Regex的進階技巧8個常用的概念

最後更新：2017-02-28 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

Regex進階技巧背後的關鍵概念

英文原文來自 Smashing Magazine 。由笨活兒翻譯。轉載請註明出處。

Regex(Regular Expression, abbr. regex) 功能強大，能夠用於在一大串字元裡找到所需資訊。它利用約定俗成的字元結構運算式來發生作用。不幸的是，簡單的Regex對於一些進階運用，功能遠遠不夠。若要進行篩選的結構比較複雜，你可能就需要用到進階Regex。

本文為您介紹Regex的進階技巧。我們篩選出了八個常用的概念，並配上執行個體解析，每個例子都是滿足某種複雜要求的簡單寫法。如果你對正則的基本概念尚缺乏瞭解，請先閱讀這篇文章，或者這個教程，或者維基條目。
這裡的正則文法適用於PHP，與Perl相容。

1. 貪婪/懶惰

所有能多次限定的正則運算子都是貪婪的。他們儘可能多地匹配目標字串，也就是說匹配結果會儘可能地長。不幸的是，這種做法並不總是我們想要的。因此，我們添加“懶惰”限定符來解決問題。在各個貪婪運算子後添加“?”能讓運算式只匹配儘可能短的長度。另外，修改器“U”也能惰化能多次限定的運算子。理解貪婪與懶惰的區別是運用進階Regex的基礎。

貪婪操作符

操作符 * 匹配之前的運算式零次或零次以上。它是一個貪婪操作符。請看下面的例子：

preg_match( "/<h1>.*< \/h1>/", "</h1><h1>這是一個標題。</h1>
<h1>這是另一個。</h1>", $matches );

句點(.)能代表除分行符號外的任一字元。上面的Regex匹配 h1 標籤以及標籤內的所有內容。它用句點(.)和星號(*)來匹配標籤內的所有內容。匹配結果如下：

<h1>這是一個標題。</h1>
<h1>這是另一個。</h1>

整個字串都被返回。* 操作符會連續匹配所有內容—— 甚至包括中間的 h1 閉合標籤。因為它是貪婪的，匹配整個字串是符合其利益最大化原則。

懶惰操作符

把上面的式子稍作修改，加上一個問號(?)，能讓運算式變懶惰：

/<h1>.*?< \/h1>/</h1>

這樣它會覺得，只需匹配到第一個 h1 結尾標籤就完成任務了。
另一個有著類似屬性的貪婪操作符是 {n,} 。它代表之前的匹配模式重複n次或n次以上，如果沒有加上問號，它會尋找儘可能多的重複次數，加上的話，則會儘可能少重複（當然也就是“重複n次”最少）。

# 建立字串
$str = "hihihi oops hi";
# 使用貪婪的{n,}操作符進行匹配
preg_match( "/(hi){2,}/", $str, $matches ); # matches[0] 將是 "hihihi"
# 使用墮化了的 {n,}? 操作符匹配
preg_match( "/(hi){2,}?/", $str, $matches ); # matches[0] 將是 "hihi"

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Regex的進階技巧8個常用的概念

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support