正規標記法(或稱為常規標記法)是透過一些特殊字元的排列,用以搜尋/取代/刪除一列或多列文字字串, 簡單的說,正規標記法就是用在字串的處理上面的一項『表示式』。正規標記法並不是一個工具程式, 而是一個字串處理的標準依據,如果您想要以正規標記法的方式處理字串,就得要使用支援正規標記法的工具程式才行, 這類的工具程式很多,例如 vi, sed, awk 等等。
一、Regex是什嗎?
Regex是用於描述字元排列和匹配模式的一種文法規則。它主要用於字串的模式分割、匹配、尋找及替換操作。
二、Regex與萬用字元
1. Regex
用來在檔案中匹配合格字串,Regex是“包含匹配”。grep、awk、sed等命令可以支援Regex。
2. Regex元字元
Regex是通過元字元來進行字串匹配的,具體請參考:http://www.cnblogs.com/refine1017/p/5011522.html
3. 萬用字元
用來匹配合格檔案名稱,萬用字元是“完全符合”。ls、find、cp這些命令不支援Regex,所以只能使用shell自己的萬用字元來進行匹配了。
4. 萬用字元包括
* 匹配任一字元
? 匹配任意一個字元
[] 匹配中括弧中的任意一個字元
三、cut命令
cut 命令從檔案的每一行剪下位元組、字元和欄位並將這些位元組、字元和欄位寫至標準輸出。
1. 常用參數
-b :以位元組為單位進行分割。這些位元組位置將忽略多位元組字元邊界,除非也指定了 -n 標誌。
-c :以字元為單位進行分割。
-d :自訂分隔字元,預設為定位字元。
-f :與-d一起使用,指定顯示哪個地區。
-n :取消分割多位元組字元。僅和 -b 標誌一起使用。
2. 樣本1:列印出用定位字元分割的檔案的某一行
[root@localhost shell]# cat student.txt ID Name Gender Mark1 ming F 852 zhang F 703 wang M 754 li M 90[root@localhost shell]# cut -f 4 student.txt Mark85707590
3. 樣本2:列印csv檔案的某一行
[root@localhost shell]# cat student.csv ID,Name,Gender,Mark1,ming,F,852,zhang,F,703,wang,M,754,li,M,90[root@localhost shell]# cut -d "," -f 4 student.csv Mark85707590
4. 樣本3:列印一個字串的第幾個字元
[root@localhost shell]# echo "abcdef" | cut -c 3c
5. 樣本4:截取中文字元的某一個文字
[root@localhost shell]# echo "Shell編程" | cut -nb 1S[root@localhost shell]# echo "Shell編程" | cut -nb 2h[root@localhost shell]# echo "Shell編程" | cut -nb 3e[root@localhost shell]# echo "Shell編程" | cut -nb 4l[root@localhost shell]# echo "Shell編程" | cut -nb 5l[root@localhost shell]# echo "Shell編程" | cut -nb 8編[root@localhost shell]# echo "Shell編程" | cut -nb 11程
四、printf命令
1. 命令格式
printf '輸出類型輸出格式' 輸出內容
2. 輸出類型
%ns:輸出字串。n代表輸出幾個字元,n省略則代表全部字元
%ni:輸出整數。n是指輸出幾個數字,n省略代表所有數字
%m.nf:輸出浮點數。m和n是數字,指代輸出的整數位元和小數位元。如%8.2f則代表共輸出8位元,其中2位是小樹,6位是整數。
3. 輸出格式
\a:輸出警告聲音
\b:輸出退格鍵(Backspace)
\f:清除螢幕
\n:換行
\r:斷行符號(Enter)
\t:水平輸出退格鍵
\v:垂直輸出退格鍵
4. 樣本
[root@localhost ~]# printf '%i %s %i %s %i\n' 1 "+" 2 "=" 31 + 2 = 3[root@localhost ~]# printf '%i-%i-%i %i:%i:%i\n' 2015 12 3 21 56 302015-12-3 21:56:30
五、awk命令
1. 命令格式
awk '條件1{動作1}條件2{動作2}...' 檔案名稱
條件:一般使用關聯運算式作為條件,如x > 10
動作:格式化輸出、流程式控制制語句
2. 樣本1:提取定位字元分割的檔案的某一行
[root@localhost shell]# cat student.txt ID Name Gender Mark1 ming F 852 zhang F 703 wang M 754 li M 90[root@localhost shell]# awk '{print $1 "\t" $4}' student.txt ID Mark1 852 703 754 90
3. 樣本2:擷取磁碟利用率
[root@localhost shell]# df -hFilesystem Size Used Avail Use% Mounted on/dev/sda2 18G 2.4G 14G 15% //dev/sda1 289M 16M 258M 6% /boottmpfs 411M 0 411M 0% /dev/shm[root@localhost shell]# df -h | grep "sda1" | awk '{print $5}'6%
六、sed命令
sed是一種幾乎包括在所有UNIX平台(包括Linux)的輕量級流編輯器。sed主要是用來將資料進行選取、替換、刪除、新增的命令。
1. 命令格式
sed [選項] '[動作]' 檔案名稱
2. 選項
-n:一般sed命令會把所有資料都輸出到螢幕,如果加入此選擇,則只會把經過sed命令處理的行輸出到螢幕。
-e:允許對輸入資料應用多條sed命令編輯。
-i:用sed的修改結果直接修改讀取資料的檔案,而不是由螢幕輸出。
3. 動作
a:追加,在當前行後添加一行或多行
c:行替換,用c後面的字串替換原資料行
i:插入,在當前行前插入一行或多行。
d:刪除,刪除指定的行
p:列印,輸出指定的行
s:字串替換,用一個字串替換另一個字串。格式為“行範圍/s/舊字串/新字串/g”(和vim中的替換格式類似)
4. 樣本
[root@localhost shell]# cat student.txt ID Name Gender Mark1 ming F 852 zhang F 703 wang M 754 li M 90#測試-n參數[root@localhost shell]# sed -n '2p' student.txt 1 ming F 85#測試單行刪除[root@localhost shell]# sed '2d' student.txt ID Name Gender Mark2 zhang F 703 wang M 754 li M 90#測試多行刪除[root@localhost shell]# sed '2,4d' student.txt ID Name Gender Mark4 li M 90#測試追加[root@localhost shell]# sed '2a test append' student.txtID Name Gender Mark1 ming F 85test append2 zhang F 703 wang M 754 li M 90#測試插入[root@localhost shell]# sed '2i test insert' student.txtID Name Gender Marktest insert1 ming F 852 zhang F 703 wang M 754 li M 90#測試行替換[root@localhost shell]# sed '2c test replace' student.txtID Name Gender Marktest replace2 zhang F 703 wang M 754 li M 90#測試內容替換[root@localhost shell]# sed '2s/ming/replace/g' student.txtID Name Gender Mark1 replace F 852 zhang F 703 wang M 754 li M 90
下面看看簡單的Regex的匹配範例,通過這些範例,相信可以比較熟練的掌握基本的Regex的使用:
HelloWorld 匹配任意一行任何位置上的10個字母:HelloWorld
^HelloWorld 匹配出現在行首的10個字母:HelloWorld
HelloWorld$ 匹配出現在行尾的10個字母:HelloWorld
^HelloWorld$ 匹配只包括這10個字母:HelloWorld的一行
[Hh]elloWorld 匹配HelloWorld或者helloworld
Hello.World 匹配含有Hello這5個字母,再加上任何一個字元,再加上world
Hello*World 匹配含有Hello這5個字母,再加上任意個字母,再加上world
在上面的例子中利用“.”或者“*”,可以匹配0個或者多個字元,但是如果要匹配的字元是一個範圍,這時候就要用到“{}”,因為shell中的 "{"和"}"有特殊含義,所以需要使用轉移字元“\”,例如:
[kouyang@kouyang kouyang] # grep -n 'o\{2\}' hello.txt
在hello.txt檔案中找出出現兩個連續的"o"的那一行
[kouyang@kouyang kouyang]# grep -n 'go\{2, 5\}g' hello.txt
在hello.txt檔案中找到go後面出現2~5個"o"後面再緊接著一個"g"的單詞的那一行