C++11 Regex簡單運用

來源:互聯網
上載者:User

標籤:url   驗證   模式比對   包含   regular   character   高效   pattern   card   

Regex(regular expression)是電腦科學中的一個概念,又稱規則運算式,通常簡寫為regex、regexp、RE、regexps、regexes、regexen。

         Regex是一種文字模式。Regex是強大、便捷、高效的文本處理工具。Regex本身,加上如同一門袖珍程式設計語言的通用模式標記法(general pattern notation),賦予使用者描述和分析文本的能力。配合上特定工具提供的額外支援,Regex能夠添加、刪除、分離、疊加、插入和修整各種類型的文本和資料。

         完整的Regex由兩種字元構成:特殊字元(special characters)稱為”元字元”(meta characters),其它為”文字”(literal),或者是普通文本字元(normal text characters,如字母、數字、漢字、底線)。Regex的元字元提供了更強大的描述能力。

         和文字編輯器一樣,絕大多數進階程式設計語言均支援Regex,如Perl、Java、Python、C/C++,這些語言都有各自的Regex包。

         一個Regex僅僅為一個字串,它沒有長度限制。“子運算式”指的是整個Regex中的一部分,通常是括弧內的運算式,或者是由”|”分割的多選分支。

預設情況下,運算式中的字母是要區分大小寫。

         常用的元字元:

1.      “.”: 匹配除"\n"之外的任何單個字元,若要匹配包括"\n"在內的任一字元,需使用諸如"[\s\S]"之類的模式;

2.       “^”:匹配輸入字串的開始位置,不匹配任何字元,要匹配”^”字元本身,需使用”\^”;

3.      “$”:匹配輸入字串結尾的位置,不匹配任何字元,要匹配”$”字元本身,需使用”\$”;

4.      “*”: 零次或多次匹配前面的字元或子運算式,”*”等效於”{0,}”,如”\^*b”可以匹配”b”、”^b”、”^^b”、…;

5.      “+”: 一次或多次匹配前面的字元或子運算式,等效於”{1,}”,如”a+b”可以匹配”ab”、”aab”、”aaab”、…;

6.      “?”: 零次或一次匹配前面的字元或子運算式,等效於”{0,1}”,如”a[cd]?”可以匹配”a”、”ac”、”ad”; 當此字元緊隨任何其他限定符”*”、”+”、”?”、”{n}”、”{n,}”、”{n,m}”之後時,匹配模式是"非貪心的"。"非貪心的"模式比對搜尋到的、儘可能短的字串,而預設的"貪心的"模式比對搜尋到的、儘可能長的字串。如,在字串"oooo"中,"o+?"只匹配單個"o",而"o+"匹配所有"o";

7.      “|”:將兩個匹配條件進行邏輯"或"(Or)運算,如Regex”(him|her)”匹配"itbelongs to him"和"it belongs to her",但是不能匹配"itbelongs to them.";

8.      “\”: 將下一字元標記為特殊字元、文本、反向引用或八進位轉義符,如,”n”匹配字元”n”,”\n”匹配分行符號,序列”\\”匹配”\”,”\(“匹配”(“;

9.      “\w”:匹配字母或數字或底線,任意一個字母或數字或底線,即A~Z,a~z,0~9,_中任意一個;

10.  “\W”:匹配任意不是字母、數字、底線的字元;

11.  “\s”:匹配任意的空白符,包括空格、定位字元、換頁符等空白字元的其中任意一個,與”[ \f\n\r\t\v]”等效;

12.  “\S”:匹配任意不是空白符的字元,與”[^\f\n\r\t\v]”等效;

13.  “\d”:匹配數字,任意一個數字,0~9中的任意一個,等效於”[0-9]”;

14.  “\D”:匹配任意非數位字元,等效於”[^0-9]”;

15.  “\b”: 匹配一個字邊界,即字與空格間的位置,也就是單詞和空格之間的位置,不匹配任何字元,如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er";

16.  “\B”: 非字邊界匹配,"er\B"匹配"verb"中的"er",但不匹配"never"中的"er";

17.  “\f”:匹配一個換頁符,等價於”\x0c”和”\cL”;

18.  “\n”:匹配一個分行符號,等價於”\x0a”和”\cJ”;

19.  “\r”:匹配一個斷行符號符,等價於”\x0d”和”\cM”;

20.  “\t”:匹配一個定位字元,等價於”\x09”和”\cI”;

21.  “\v”:匹配一個垂直定位字元,等價於”\x0b”和”\cK”;

22.  “\cx”:匹配”x”指示的控制字元,如,\cM匹配Control-M或斷行符號符,”x”的值必須在”A-Z”或”a-z”之間,如果不是這樣,則假定c就是"c"字元本身;

23.  “{n}”:”n”是非負整數,正好匹配n次,如,"o{2}"與"Bob"中的"o"不匹配,但與"food"中的兩個"o"匹配;

24.  “{n,}”:”n”是非負整數,至少匹配n次,如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有”o”,"o{1,}"等效於"o+","o{0,}"等效於"o*";

25.  “{n,m}”:”n”和”m”是非負整數,其中n<=m,匹配至少n次,至多m次,如,"o{1,3}"匹配"fooooood"中的頭三個o,‘o{0,1}‘等效於‘o?‘,注意,不能將空格插入逗號和數字之間;如”ba{1,3}”可以匹配”ba”或”baa”或”baaa”;

26.  “x|y”:匹配”x”或”y”,如,”z|food”匹配"z"或"food";”(z|f)ood”匹配"zood"或"food";

27.  “[xyz]”:字元集,匹配包含的任一字元,如,"[abc]"匹配"plain"中的"a";

28.  “[^xyz]”:反向字元集,匹配未包含的任何字元,匹配除了”xyz”以外的任一字元,如,"[^abc]"匹配"plain"中的"p";

29.  “[a-z]”:字元範圍,匹配指定範圍內的任何字元,如,"[a-z]"匹配"a"到"z"範圍內的任何小寫字母;

30.  “[^a-z]”:反向範圍字元,匹配不在指定的範圍內的任何字元,如,"[^a-z]"匹配任何不在"a"到"z"範圍內的任何字元;

31.  “( )”:將”(“和”)”之間的運算式定義為”組”group,並且將匹配這個運算式的字元儲存到一個臨時地區,一個Regex中最多可以儲存9個,它們可以用”\1”到”\9”的符號來引用;

32.  “(pattern)”:匹配pattern並捕獲該匹配的子運算式,可以使用$0…$9屬性從結果”匹配”集合中檢索捕獲的匹配;

33.  “(?:pattern)”:匹配pattern但不捕獲該匹配的子運算式,即它是一個非捕獲匹配,不儲存供以後使用的匹配,這對於用”or”字元” (|)”組合模式組件的情況很有用, 如,”industr(?:y|ies)”是比”industry|industries”更簡略的運算式;

34.  “(?=pattern)”: 非擷取匹配,正向肯定預查,在任何匹配pattern的字串開始處匹配尋找字串,該匹配不需要擷取供以後使用。如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜尋,而不是從包含預查的字元之後開始;

35.  “(?!pattern)”: 非擷取匹配,正向否定預查,在任何不匹配pattern的字串開始處匹配尋找字串,該匹配不需要擷取供以後使用。如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows";

要匹配某些特殊字元,需在此特殊字元前面加上”\”,如要匹配字元”^”、”$”、”()”、”[]”、”{}”、”.”、”?”、”+”、”*”、”|”,需使用” \^”、” \$”、” \ (“、”\)”、” \ [“、”\]”、” \{“、”\}”、” \.”、” \?”、” \+”、” \*”、” \|”。

在C++/C++11中,GCC版本是4.9.0及以上,VS版本為VS2013及以上時,會有regex標頭檔,此標頭檔中會有regex_match、regex_search、regex_replace等函數可供調用,以下是測試代碼:

 

#include "regex.hpp"#include <regex>#include <string>#include <vector>#include <iostream>int test_regex_match(){    std::string pattern{ "\\d{3}-\\d{8}|\\d{4}-\\d{7}" }; // fixed telephone    std::regex re(pattern);    std::vector<std::string> str{ "010-12345678", "0319-9876543", "021-123456789"};    /* std::regex_match:        判斷一個Regex(參數re)是否匹配整個字元序列str,它主要用於驗證文本        注意,這個Regex必須匹配被分析串的全部,否則返回false;如果整個序列被成功匹配,返回true    */    for (auto tmp : str) {        bool ret = std::regex_match(tmp, re);        if (ret) fprintf(stderr, "%s, can match\n", tmp.c_str());        else fprintf(stderr, "%s, can not match\n", tmp.c_str());    }    return 0;}int test_regex_search(){    std::string pattern{ "http|hppts://\\w*$" }; // url    std::regex re(pattern);    std::vector<std::string> str{ "http://blog.csdn.net/fengbingchun", "https://github.com/fengbingchun",        "abcd://124.456", "abcd https://github.com/fengbingchun 123" };    /* std::regex_search:        類似於regex_match,但它不要求整個字元序列完全符合        可以用regex_search來尋找輸入中的一個子序列,該子序列匹配Regexre    */    for (auto tmp : str) {        bool ret = std::regex_search(tmp, re);        if (ret) fprintf(stderr, "%s, can search\n", tmp.c_str());        else fprintf(stderr, "%s, can not search\n", tmp.c_str());    }    return 0;}int test_regex_search2(){    std::string pattern{ "[a-zA-z]+://[^\\s]*" }; // url    std::regex re(pattern);    std::string str{ "my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun " };    std::smatch results;    while (std::regex_search(str, results, re)) {        for (auto x : results)            std::cout << x << " ";        std::cout << std::endl;        str = results.suffix().str();    }    return 0;}int test_regex_replace(){    std::string pattern{ "\\d{18}|\\d{17}X" }; // id card    std::regex re(pattern);    std::vector<std::string> str{ "123456789012345678", "abcd123456789012345678efgh",        "abcdefbg", "12345678901234567X" };    std::string fmt{ "********" };    /* std::regex_replace:        在整個字元序列中尋找Regexre的所有匹配        這個演算法每次成功匹配後,就根據參數fmt對匹配字串進行替換    */    for (auto tmp : str) {        std::string ret = std::regex_replace(tmp, re, fmt);        fprintf(stderr, "src: %s, dst: %s\n", tmp.c_str(), ret.c_str());    }    return 0;}int test_regex_replace2(){    // reference: http://www.cplusplus.com/reference/regex/regex_replace/    std::string s("there is a subsequence in the string\n");    std::regex e("\\b(sub)([^ ]*)");   // matches words beginning by "sub"    // using string/c-string (3) version:    std::cout << std::regex_replace(s, e, "sub-$2");    // using range/c-string (6) version:    std::string result;    std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, "$2");    std::cout << result;    // with flags:    std::cout << std::regex_replace(s, e, "$1 and $2", std::regex_constants::format_no_copy);    std::cout << std::endl;    return 0;}

 

註:部落格轉寄自http://blog.csdn.net/fengbingchun/article/details/54835571

 

C++11 Regex簡單運用

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.