標籤:blog http 使用 檔案 os art
shell之文本過濾(grep)分類: linux shell指令碼學習2012-09-14 14:17 588人閱讀 評論(0) 收藏 舉報shellRegex擴充工具儲存
grep(全域Regex版本)允許對文字檔進行模式尋找。如果找到匹配模式, grep列印包含模式的所有行。grep支援基本Regex,也支援其擴充集。
g r e p一般格式為:
grep [選項]基本Regex[檔案]
這裡基本Regex可為字串。如果是字串的時候請加上“”號,否則容易出錯。
常用的g r e p選項有:
-c 只輸出匹配行的計數。
-i 不區分大小寫(只適用於單字元) 。
-h 查詢多檔案時不顯示檔案名稱。
-l 查詢多檔案時只輸出包含匹配字元的檔案名稱。
-n 顯示匹配行及行號。
-s 不顯示不存在或無匹配文本的錯誤資訊。
-v 顯示不包含匹配文本的所有行。
grep和Regex
使用Regex使模式比對加入一些規則,因此可以在抽取資訊中加入更多選擇。使用Regex時最好用單引號括起來,這樣可以防止 g r e p中使用的專有模式與一些 s he l l 命令的特殊方式相混淆。
要用好grep這個工具,其實就是要寫好Regex,所以這裡不對grep的所有功能進行執行個體講解,只列幾個例子,講解一個Regex的寫法。
$ ls -l | grep ‘^a‘
通過管道過濾ls -l輸出的內容,只顯示以a開頭的行。
$ grep ‘test‘ d*
顯示所有以d開頭的檔案中包含test的行。
$ grep ‘test‘ aa bb cc
顯示在aa,bb,cc檔案中匹配test的行。
$ grep ‘[a-z]/{5/}‘ aa
顯示所有包含每個字串至少有5個連續小寫字元的字串的行。
$ grep ‘w/(es/)t.*/1‘ aa
如果west被匹配,則es就被儲存到記憶體中,並標記為1,然後搜尋任意個字元(.*),這些字元後面緊跟著另外一個es(/1),找到就顯示該行。如果用egrep或grep -E,就不用"/"號進行轉義,直接寫成‘w(es)t.*/1‘就可以了。
grepRegex元字元集(基本集)
^
錨定行的開始 如:‘^grep‘匹配所有以grep開頭的行。
$
錨定行的結束 如:‘grep$‘匹配所有以grep結尾的行。
.
匹配一個非分行符號的字元 如:‘gr.p‘匹配gr後接一個任一字元,然後是p。
*
匹配零個或多個先前字元 如:‘*grep‘匹配所有一個或多個空格後緊跟grep的行。 .*一起用代表任一字元。
[]
匹配一個指定範圍內的字元,如‘[Gg]rep‘匹配Grep和grep。
[^]
匹配一個不在指定範圍內的字元,如:‘[^A-FH-Z]rep‘匹配不包含A-R和T-Z的一個字母開頭,緊跟rep的行。
/(../)
標記匹配字元,如‘/(love/)‘,love被標記為1。
/<
錨定單詞的開始,如:‘/
/>
錨定單詞的結束,如‘grep/>‘匹配包含以grep結尾的單詞的行。
x/{m/}
重複字元x,m次,如:‘0/{5/}‘匹配包含5個o的行。
x/{m,/}
重複字元x,至少m次,如:‘o/{5,/}‘匹配至少有5個o的行。
x/{m,n/}
重複字元x,至少m次,不多於n次,如:‘o/{5,10/}‘匹配5--10個o的行。
/w
匹配文字和數字字元,也就是[A-Za-z0-9],如:‘G/w*p‘匹配以G後跟零個或多個文字或數字字元,然後是p。
/W
/w的反置形式,匹配一個或多個非單詞字元,如點號句號等。
/b
單詞鎖定符,如: ‘/bgrepb/‘只匹配grep。