【Shell】基礎正則標記法及grep用法

來源:互聯網
上載者:User

標籤:

——《鳥哥的私房菜》

正規標記法就是處理字串的方法,他是以行為單位來進行字串的處理行為;
正規標記法透過一些特殊符號的輔助,可以讓使用者輕易的達到『搜尋/刪除/取代』某特定字串的處理常式;
只要工具程式支援正規標記法,那麼該工具程式就可以用來作為正規標記法的字串處理之用;
正規標記法與萬用位元組是完全不一樣的東西!萬用位元組 (wildcard) 代表的是 bash 操作介面的一個功能, 但正規標記法則是一種字串處理的表示方式!

 

grep 正規標記法裡面是很常見也很常用的一個工具,他最重要的功能就是進行字串資料的比對,然後將符合使用者需求的字串列印出來。

grep 在資料中查尋一個字串時,是以 "整行" 為單位來進行資料的擷取的!也就是說,假如一個檔案內有 10 行,其中有兩行具有你所搜尋的字串,則將那兩行顯示在螢幕上,其他的就丟棄了!

grep [-acinv] [-A] [-B] [--color=auto] ‘搜尋字串‘ filename
選項與參數:
-a :將 binary 檔案以 text 檔案的方式搜尋資料
-c :計算找到 ‘搜尋字串‘ 的次數
-i :忽略大小寫不同,所以大小寫視為相同
-n :順便輸出行號
-v :反向選擇,亦即顯示出沒有 ‘搜尋字串‘ 內容的那一行
--color=auto :將找到的關鍵詞部分加上顏色的顯示
-A :後面可加數字,為 after 的意思,除了列出該行外,後續的 n 行也列出來
-B :後面可加數字,為 befer 的意思,除了列出該行外,前面的 n 行也列出來

 

基礎正規標記法字元彙整

RE 字元 意義與範例
^word 意義:待搜尋的字串(word)在行首!
範例:搜尋行首為 # 開始的那一行,並列出行號
grep -n ‘^#‘ regular_express.txt
word$ 意義:待搜尋的字串(word)在行尾!
範例:將行尾為 ! 的那一行列印出來,並列出行號
grep -n ‘!$‘ regular_express.txt
. 意義:代表『一定有一個任意位元組』的字元!
範例:搜尋的字串可以是 (eve) (eae) (eee) (e e), 但不能僅有 (ee) !亦即 e 與 e 中間『一定』僅有一個位元組,而空白位元組也是位元組!
grep -n ‘e.e‘ regular_express.txt
\ 意義:跳脫字元,將特殊符號的特殊意義去除!
範例:搜尋含有單引號 ‘ 的那一行!
grep -n \‘ regular_express.txt
* 意義:重複零個到無窮多個的前一個 RE 字元
範例:找出含有 (es) (ess) (esss) 等等的字串,注意,因為 * 可以是 0 個,所以 es 也是符合帶搜尋字串。另外,因為 * 為重複『前一個 RE 字元』的符號, 因此,在 * 之前必須要緊接著一個 RE 字元喔!例如任意位元組則為 『.*』 !
grep -n ‘ess*‘ regular_express.txt
[list] 意義:位元組集合的 RE 字元,裡面列出想要擷取的位元組!
範例:搜尋含有 (gl) 或 (gd) 的那一行,需要特別留意的是,在 [] 當中『謹代表一個待搜尋的位元組』, 例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思!
grep -n ‘g[ld]‘ regular_express.txt
[n1-n2] 意義:位元組集合的 RE 字元,裡面列出想要擷取的位元組範圍!
範例:搜尋含有任一數字的那一行!需特別留意,在位元組集合 [] 中的減號 - 是有特殊意義的,他代表兩個位元組之間的所有連續位元組!但這個連續與否與 ASCII 編碼有關,因此,你的編碼需要配置正確(在 bash 當中,需要確定 LANG 與 LANGUAGE 的變數是否正確!) 例如所有大寫位元組則為 [A-Z]
grep -n ‘[A-Z]‘ regular_express.txt
[^list] 意義:位元組集合的 RE 字元,裡面列出不要的字串或範圍!
範例:搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ,那個 ^ 在 [] 內時,代表的意義是『反向選擇』的意思。 例如,我不要大寫位元組,則為 [^A-Z]。但是,需要特別注意的是,如果以 grep -n [^A-Z] regular_express.txt 來搜尋,卻發現該檔案內的所有行都被列出,為什嗎?因為這個 [^A-Z] 是『非大寫位元組』的意思, 因為每一行均有非大寫位元組,例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字
grep -n ‘oo[^t]‘ regular_express.txt
\{n,m\} 意義:連續 n 到 m 個的『前一個 RE 字元』
意義:若為 \{n\} 則是連續 n 個的前一個 RE 字元,
意義:若是 \{n,\} 則是連續 n 個以上的前一個 RE 字元! 範例:在 g 與 g 之間有 2 個到 3 個的 o 存在的字串,亦即 (goog)(gooog)
grep -n ‘go\{2,3\}g‘ regular_express.txt
註:因為 { 與 } 的符號在 shell 是有特殊意義的,因此, 我們必須要使用跳脫字元 \ 來讓他失去特殊意義才行

再次強調:『正規標記法的特殊位元組』與一般在命令列輸入命令的『萬用位元組』並不相同, 例如,在萬用位元組當中的 * 代表的是『 0 ~ 無限多個位元組』的意思,但是在正規標記法當中, * 則是『重複 0 到無窮多個的前一個 RE 字元』的意思~使用的意義並不相同,不要搞混了!

舉例來說,不支援正規標記法的 ls 這個工具中,若我們使用 『ls -l * 』 代表的是任意檔名的檔案,而 『ls -l a* 』代表的是以 a 為開頭的任何檔名的檔案, 但在正規標記法中,我們要找到含有以 a 為開頭的檔案,則必須要這樣:(需搭配支援正規標記法的工具)

ls | grep -n ‘^a.*‘

.* 就代表零個或多個任意位元組

另外,那個 ^ 符號,在位元組集合符號(括弧[])之內與之外是不同的! 在 [] 內代表『反向選擇』,在 [] 之外則代表定位在行首的意義!

例如:grep -n ‘^[^a-zA-Z]‘ 意義是 不要開頭是英文字母的行

 

另外,為了要避免編碼所造成的英文與數位擷取問題,因此有些特殊的符號我們得要瞭解一下的! 這些符號主要有底下這些意義:

特殊符號 代表意義
[:alnum:] 代表英文大小寫位元組及數字,亦即 0-9, A-Z, a-z
[:alpha:] 代表任何英文大小寫位元組,亦即 A-Z, a-z
[:blank:] 代表空白鍵與 [Tab] 按鍵兩者
[:cntrl:] 代表鍵盤上面的控制按鍵,亦即包括 CR, LF, Tab, Del.. 等等
[:digit:] 代表數字而已,亦即 0-9
[:graph:] 除了空白位元組 (空白鍵與 [Tab] 按鍵) 外的其他所有按鍵
[:lower:] 代表小寫位元組,亦即 a-z
[:print:] 代表任何可以被列印出來的位元組
[:punct:] 代表標點符號 (punctuation symbol),亦即:" ‘ ? ! ; : # $...
[:upper:] 代表大寫位元組,亦即 A-Z
[:space:] 任何會產生空白的位元組,包括空白鍵, [Tab], CR 等等
[:xdigit:] 代表 16 進位的數字類型,因此包括: 0-9, A-F, a-f 的數字與位元組

【Shell】基礎正則標記法及grep用法

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.