linux Regex

來源:互聯網
上載者:User

 linux Regex  收藏

 

什麼是Regex
一個Regex,就是用某種模式去匹配一類字串的一個公式。很多人因為它們看上去比較古怪而且複雜所以不敢去使用——很不幸,這篇文章也不能夠改變這一點,不過,經過一點點練習之後我就開始覺得這些複雜的運算式其實寫起來還是相當簡單的,而且,一旦你弄懂它們,你就能把數小時辛苦而且易錯的文本處理工作壓縮在幾分鐘(甚至幾秒鐘)內完成。Regex被各種文本編輯軟體、類庫(例如Rogue Wave的tools.h++)、指令碼工具(像awk/grep/sed)廣泛的支援,而且像Microsoft的Visual C++這種互動式IDE也開始支援它了。
我們將在如下的章節中利用一些例子來解釋Regex的用法,絕大部分的例子是基於vi中的文本替換命令和grep檔案搜尋命令來書寫的,不過它們都是比較典型的例子,其中的概念可以在sed、awk、perl和其他支援Regex的程式設計語言中使用。你可以看看不同工具中的Regex這一節,其中有一些在別的工具中使用Regex的例子。還有一個關於vi中文本替換命令(s)的簡單說明附在文後供參考。

Regex基礎
Regex由一些一般字元和一些元字元(metacharacters)組成。一般字元包括大小寫字母和數字,而元字元則具有特殊的含義,我們下面會給予解釋。
在最簡單的情況下,一個Regex看上去就是一個普通的尋找串。例如,Regex”testing”中沒有包含任何元字元,,它可以匹配”testing”和”123testing”等字串,但是不能匹配”Testing”。

要想真正的用好Regex,正確的理解元字元是最重要的事情。下表列出了所有的元字元和對它們的一個簡短的描述。

元字元 描述

——————————————————————————–

——————————————————————————–

.   匹配任何單個字元。例如Regexr.t匹配這些字串:rat、rut、r t,但是不匹配root。  
$   匹配行結束符。例如Regexweasel$ 能夠匹配字串"He's a weasel"的末尾,但是不能匹配字串"They are a bunch of weasels."。  
^   匹配一行的開始。例如Regex^When in能夠匹配字串"When in the course of human events"的開始,但是不能匹配"What and When in the"。 
*   匹配0或多個正好在它之前的那個字元。例如Regex.*意味著能夠匹配任意數量的任何字元。 
/   這是引用府,用來將這裡列出的這些元字元當作普通的字元來進行匹配。例如Regex/$被用來匹配貨幣符號,而不是行尾,類似的,Regex/.用來匹配點字元,而不是任何字元的萬用字元。 
[ ]  
[c1-c2] 
[^c1-c2]   匹配括弧中的任何一個字元。例如Regexr[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括弧中使用連字號-來指定字元的區間,例如Regex[0-9]可以匹配任何數字字元;還可以制定多個區間,例如Regex[A-Za-z]可以匹配任何大小寫字母。另一個重要的用法是“排除”,要想匹配除了指定區間之外的字元——也就是所謂的補集——在左邊的括弧和第一個字元之間使用^字元,例如Regex[^269A-Z] 將匹配除了2、6、9和所有大寫字母之外的任何字元。 
/< />   匹配詞(word)的開始(/<)和結束(/>)。例如Regex/<the能夠匹配字串"for the wise"中的"the",但是不能匹配字串"otherwise"中的"the"。注意:這個元字元不是所有的軟體都支援的。 
/( /)   將 /( 和 /) 之間的運算式定義為“組”(group),並且將匹配這個運算式的字元儲存到一個臨時地區(一個Regex中最多可以儲存9個),它們可以用 /1 到/9 的符號來引用。 
|   將兩個匹配條件進行邏輯“或”(Or)運算。例如Regex(him|her) 匹配"it belongs to him"和"it belongs to her",但是不能匹配"it belongs to them."。注意:這個元字元不是所有的軟體都支援的。 
+   匹配1或多個正好在它之前的那個字元。例如Regex9+匹配9、99、999等。注意:這個元字元不是所有的軟體都支援的。 
?   匹配0或1個正好在它之前的那個字元。注意:這個元字元不是所有的軟體都支援的。 
/{i/} 
/{i,j/}   匹配指定數目的字元,這些字元是在它之前的運算式定義的。例如RegexA[0-9]/{3/} 能夠匹配字元"A"後面跟著正好3個數字字元的串,例如A123、A348等,但是不匹配A1234。而Regex[0-9]/{4,6/} 匹配連續的任意4個、5個或者6個數字字元。注意:這個元字元不是所有的軟體都支援的。

——————————————————————————–

最簡單的元字元是點,它能夠匹配任何單個字元(注意不包括新行符)。假定有個檔案test.txt包含以下幾行內容:

he is a rat
he is in a rut
the food is Rotten
I like root beer
我們可以使用grep命令來測試我們的Regex,grep命令使用Regex去嘗試匹配指定檔案的每一行,並將至少有一處匹配運算式的所有行顯示出來。命令

  1. grep r.t test.txt

在test.txt檔案中的每一行中搜尋Regexr.t,並列印輸出匹配的行。Regexr.t匹配一個r接著任何一個字元再接著一個t。所以它將匹配檔案中的rat和rut,而不能匹配Rotten中的Rot,因為Regex是大小寫敏感的。要想同時匹配大寫和小寫字母,應該使用字元區間元字元(方括弧)。Regex[Rr]能夠同時匹配R和r。所以,要想匹配一個大寫或者小寫r接著任何一個字元再接著一個t就要使用這個運算式:[Rr].t。
要想匹配行首的字元要使用抑揚字元(^)——又是也被叫做插入符。例如,想找到text.txt中行首”he”打頭的行,你可能會先用簡單運算式he,但是這會匹配第三行的the,所以要使用Regex^he,它只匹配在行首出現的h。

有時候指定“除了×××都匹配”會比較容易達到目的,當抑揚字元(^)出現在方括弧中是,它表示“排除”,例如要匹配he ,但是排除前面是t or s的情性(也就是the和she),可以使用:[^st]he。

可以使用方括弧來指定多個字元區間。例如Regex[A-Za-z]匹配任何字母,包括大寫和小寫;Regex[A-Za-z][A-Za-z]* 匹配一個字母后面接著0或者多個字母(大寫或者小寫)。當然我們也可以用元字元+做到同樣的事情,也就是:[A-Za-z]+ ,和[A-Za-z][A-Za-z]*完全等價。但是要注意元字元+ 並不是所有支援Regex的程式都支援的。關於這一點可以參考後面的Regex文法支援情況。

要指定特定數量的匹配,要使用大括弧(注意必須使用反斜線來轉義)。想匹配所有100和1000的執行個體而排除10和10000,可以使用:10/{2,3/},這個Regex匹配數字1後面跟著2或者3個0的模式。在這個元字元的使用中一個有用的變化是忽略第二個數字,例如Regex0/{3,/} 將匹配至少3個連續的0。

簡單的例子
這裡有一些有代表性的、比較簡單的例子。

vi 命令 作用

——————————————————————————–

——————————————————————————–

:%s/ */ /g 把一個或者多個空格替換為一個空格。 
:%s/ *$// 去掉行尾的所有空格。 
:%s/^/ / 在每一行頭上加入一個空格。 
:%s/^[0-9][0-9]* // 去掉行首的所有數字字元。 
:%s/b[aeio]g/bug/g 將所有的bag、beg、big和bog改為bug。  
:%s/t/([aou]/)g/h/1t/g 將所有tag、tog和tug分別改為hat、hot和hug(注意用group的用法和使用/1引用前面被匹配的字元)。

中級的例子(神奇的咒語)
例1
將所有方法foo(a,b,c)的執行個體改為foo(b,a,c)。這裡a、b和c可以是任何提供給方法foo()的參數。也就是說我們要實現這樣的轉換:

之前 之後

foo(10,7,2)  foo(7,10,2) 
foo(x+13,y-2,10)  foo(y-2,x+13,10) 
foo( bar(8), x+y+z, 5)  foo( x+y+z, bar(8), 5)

下面這條替換命令能夠實現這一魔法:

  1. :%s/foo(/([^,]*/),/([^,]*/),/([^)]*/))/foo(/2,/1,/3)/g

現在讓我們把它打散來加以分析。寫出這個運算式的基本思路是找出foo()和它的括弧中的三個參數的位置。第一個參數是用這個運算式來識別的::/([^,]*/),我們可以從裡向外來分析它:

[^,]   除了逗號之外的任何字元 
[^,]*  0或者多個非逗號字元 
/([^,]*/)  將這些非逗號字元標記為/1,這樣可以在之後的替換模式運算式中引用它 
/([^,]*/),  我們必須找到0或者多個非逗號字元後面跟著一個逗號,並且非逗號字元那部分要標記出來以備後用。

現在正是指出一個使用Regex常見錯誤的最佳時機。為什麼我們要使用[^,]*這樣的一個運算式,而不是更加簡單直接的寫法,例如:.*,來匹配第一個參數呢?設想我們使用模式.*來匹配字串”10,7,2″,它應該匹配”10,”還是”10,7,”?為瞭解決這個兩義性(ambiguity),Regex規定一律按照最長的串來,在上面的例子中就是”10,7,”,顯然這樣就找出了兩個參數而不是我們期望的一個。所以,我們要使用[^,]*來強製取出第一個逗號之前的部分。

這個運算式我們已經分析到了:foo(/([^,]*/),這一段可以簡單的翻譯為“當你找到foo(就把其後直到第一個逗號之前的部分標記為/1”。然後我們使用同樣的辦法標記第二個參數為/2。對第三個參數的標記方法也是一樣,只是我們要搜尋所有的字元直到右括弧。我們並沒有必要去搜尋第三個參數,因為我們不需要調整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個參數的foo()方法調用,在foo()是一個重載(overoading)方法時這種明確的模式往往是比較保險的。然後,在替換部分,我們找到foo()的對應執行個體,然後利用標記好的部分進行替換,是的第一和第二個參數交換位置。

例2
假設有一個CSV(comma separated value)檔案,裡面有一些我們需要的資訊,但是格式卻有問題,目前資料的列順序是:姓名,公司名,州名縮寫,郵遞區號,現在我們希望講這些資料重新組織,以便在我們的某個軟體中使用,需要的格式為:姓名,州名縮寫-郵遞區號,公司名。也就是說,我們要調整列順序,還要合并兩個列來構成一個新列。另外,我們的軟體不能接受逗號前後面有任何空格(包括空格和定位字元)所以我們還必須要去掉逗號前後的所有空格。
這裡有幾行我們現在的資料:

Bill Jones,     HI-TEK Corporation ,  CA, 95011 
Sharon Lee Smith,  Design Works Incorporated,  CA, 95012 
B. Amos   ,  Hill Street Cafe,  CA, 95013 
Alexander Weatherworth,  The Crafts Store,  CA, 95014


我們希望把它變成這個樣子:

Bill Jones,CA 95011,HI-TEK Corporation 
Sharon Lee Smith,CA 95012,Design Works Incorporated 
B. Amos,CA 95013,Hill Street Cafe 
Alexander Weatherworth,CA 95014,The Crafts Store


我們將用兩個Regex來解決這個問題。第一個移動列和合并列,第二個用來去掉空格。
下面就是第一個替換命令:

  1. :%s//([^,]*/),/([^,]*/),/([^,]*/),/(.*/)//1,/3 /4,/2/

這裡的方法跟例1基本一樣,第一個列(姓名)用這個運算式來匹配:/([^,]*/),即第一個逗號之前的所有字元,而姓名內容被用/1標記下來。公司名和州名縮寫欄位用同樣的方法標記為/2和/3,而最後一個欄位用/(.*/)來匹配(”匹配所有字元直到行末”)。替換部分則引用上面標記的那些內容來進行構造。
下面這個替換命令則用來去除空格:

  1. :%s/[ /t]*,[ /t]*/,/g

我們還是分解來看:[ /t]匹配空格/定位字元,[ /t]* 匹配0或多個空格/定位字元,[ /t]*,匹配0或多個空格/定位字元後面再加一個逗號,最後,[ /t]*,[ /t]*匹配0或多個空格/定位字元接著一個逗號再接著0或多個空格/定位字元。在替換部分,我們簡單的我們找到的所有東西替換成一個逗號。這裡我們使用了結尾的可選的g參數,這表示在每行中對所有匹配的串執行替換(而不是預設的只替換第一個匹配串)。
例3
假設有一個多字元的片斷重複出現,例如:

Billy tried really hard 
Sally tried really really hard 
Timmy tried really really really hard 
Johnny tried really really really really hard

而你想把”really”、”really really”,以及任意數量連續出現的”really”字串換成一個簡單的”very”(simple is good!),那麼以下命令:

  1. :%s//(really /)/(really /)*/very /

就會把上述的文本變成:

Billy tried very hard 
Sally tried very hard 
Timmy tried very hard 
Johnny tried very hard

運算式/(really /)*匹配0或多個連續的”really “(注意結尾有個空格),而/(really /)/(really /)* 匹配1個或多個連續的”really “執行個體。
困難的例子(不可思議的表意字元)
Coming soon.

——————————————————————————–

不同工具中的Regex
OK,你已經準備使用RE(regular expressions,Regex),但是你並準備使用vi。所以,在這裡我們給出一些在其他工具中使用RE的例子。另外,我還會總結一下你在不同程式之間使用RE可能發現的區別。
當然,你也可以在Visual C++編輯器中使用RE。選擇Edit->Replace,然後選擇”Regular expression”選擇框,Find What輸入框對應上面介紹的vi命令:%s/pat1/pat2/g中的pat1部分,而Replace輸入框對應pat2部分。但是,為了得到vi的執行範圍和g選項,你要使用Replace All或者適當的手工Find Next and Replace(譯者按:知道為啥有人罵微軟弱智了吧,雖然VC中可以選中一個範圍的文本,然後在其中執行替換,但是總之不夠vi那麼靈活和典雅)。

sed
Sed是Stream EDitor的縮寫,是Unix下常用的基於檔案和管道的編輯工具,可以在手冊中得到關於sed的詳細資料。

這裡是一些有趣的sed指令碼,假定我們正在處理一個叫做price.txt的檔案。注意這些編輯並不會改變源檔案,sed只是處理源檔案的每一行並把結果顯示在標準輸出中(當然很容易使用重新導向來定製):

sed指令碼 描述

——————————————————————————–

——————————————————————————–

  1. sed 's/^$/d' price.txt  刪除所有空行
  2. sed 's/^[ /t]*$/d' price.txt  刪除所有只包含空格或者定位字元的行
  3. sed 's/"//g' price.txt  刪除所有引號

awk
awk是一種程式設計語言,可以用來對文本資料進行複雜的分析和處理。可以在手冊中得到關於awk的詳細資料。這個古怪的名字是它作者們的姓的縮寫(Aho,Weinberger和Kernighan)。
在Aho,Weinberger和Kernighan的書The AWK Programming Language中有很多很好的awk的例子,請不要讓下面這些微不足道的指令碼例子限制你對awk強大能力的理解。我們同樣假定我們針對price.txt檔案進行處理,跟sed一樣,awk也只是把結果顯示在終端上。

awk指令碼 描述

——————————————————————————–

——————————————————————————–

awk '$0 !~ /^$/' price.txt  刪除所有空行 
awk 'NF > 0' price.txt  awk中一個更好的刪除所有行的辦法 
awk '$2 ~ /^[JT]/ {print $3}' price.txt  列印所有第二個欄位是'J'或者'T'打頭的行中的第三個欄位 
awk '$2 !~ /[Mm]isc/ {print $3 + $4}' price.txt  針對所有第二個欄位不包含'Misc'或者'misc'的行,列印第3和第4列的和(假定為數字) 
awk '$3 !~ /^[0-9]+/.[0-9]*$/ {print $0}' price.txt  列印所有第三個欄位不是數位行,這裡數字是指d.d或者d這樣的形式,其中d是0到9的任何數字 
awk '$2 ~ /John|Fred/ {print $0}' price.txt  如果第二個欄位包含'John'或者'Fred'則列印整行

grep
grep是一個用來在一個或者多個檔案或者輸入資料流中使用RE進行尋找的程式。它的name程式設計語言可以用來針對檔案和管道進行處理。可以在手冊中得到關於grep的完整資訊。這個同樣古怪的名字來源於vi的一個命令,g/re/p,意思是global regular expression print。
下面的例子中我們假定在檔案phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個定位字元,然後是電話號碼:

Francis, John 5-3871
Wong, Fred 4-4123
Jones, Thomas 1-4122
Salazar, Richard 5-2522

grep命令 描述

——————————————————————————–

——————————————————————————–

grep '/t5-...1' phone.txt  把所有電話號碼以5開頭以1結束的行列印出來,注意定位字元是用/t表示的 
grep '^S[^ ]* R' phone.txt  列印所有姓以S打頭和名以R打頭的行 
grep '^[JW]' phone.txt  列印所有姓開頭是J或者W的行 
grep ', ..../t' phone.txt  列印所有姓是4個字元的行,注意定位字元是用/t表示的 
grep -v '^[JW]' phone.txt  列印所有不以J或者W開頭的行 
grep '^[M-Z]' phone.txt  列印所有姓的開頭是M到Z之間任一字元的行 
grep '^[M-Z].*[12]' phone.txt  列印所有姓的開頭是M到Z之間任一字元,並且點號號碼結尾是1或者2的行

egrep
egrep是grep的一個擴充版本,它在它的Regex中支援更多的元字元。下面的例子中我們假定在檔案phone.txt中包含以下的文本,——其格式是姓加一個逗號,然後是名,然後是一個定位字元,然後是電話號碼:

Francis, John           5-3871 
Wong, Fred              4-4123 
Jones, Thomas           1-4122 
Salazar, Richard        5-2522 
egrep command   Description

——————————————————————————–

——————————————————————————–

egrep '(John|Fred)' phone.txt  列印所有包含名字John或者Fred的行 
egrep 'John|22$|^W' phone.txt  列印所有包含John 或者以22結束或者以W的行 
egrep 'net(work)?s' report.txt  從report.txt中找到所有包含networks或者nets的行

——————————————————————————–

Regex文法支援情況

  1. 命令或環境 . [ ] ^ $ /( /) /{ /} ? + | ( )
  2. vi  X   X   X   X   X           
  3. Visual C++  X   X   X   X   X           
  4. awk  X   X   X   X       X   X   X   X 
  5. sed  X   X   X   X   X   X         
  6. Tcl  X   X   X   X   X     X   X   X   X 
  7. ex  X   X   X   X   X   X         
  8. grep  X   X   X   X   X   X         
  9. egrep  X   X  X   X   X     X   X   X   X 
  10. fgrep  X   X   X   X   X           
  11. perl  X  X  X  X  X    X  X  X  X

——————————————————————————–

vi替換命令簡介
Vi的替換命令:
:ranges/pat1/pat2/g
其中
: 這是Vi的命令執行介面。
range 是命令執行範圍的指定,可以使用百分比符號(%)表示所有行,使用點(.)表示當前行,使用貨幣符號($)表示最後一行。你還可以使用行號,例如10,20表示第10到20行,.,$表示當前行到最後一行,.+2,$-5表示當前行後兩行直到全文的倒數第五行,等等。
s 表示其後是一個替換命令。

pat1 這是要尋找的一個Regex,這篇文章中有一大堆例子。

pat2 這是希望把匹配串變成的模式的Regex,這篇文章中有一大堆例子。
g 可選標誌,帶這個標誌表示替換將針對行中每個匹配的串進行,否則則只替換行中第一個匹配串。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.