標籤:插入 文字檔 空間 標籤 過程 oca grep intro ref
在編寫shell指令碼的過程中,我們經常需要使用sed流編輯器和awk對文字檔進行處理。一、什麼是sed?
sed 是一種線上編輯器,它一次處理一行內容。sed是非互動編輯器。它不會修改檔案,除非使用shell重新導向來儲存結果。預設情況下,所有的輸出行都被列印到螢幕上。
二、sed的處理過程
sed編輯器逐行處理檔案(或輸入),並將結果發送到螢幕。具體過程如下:首先sed把當前正在處理的行儲存在一個臨時緩衝區中(也稱為模式空間),然後處理臨時緩衝區中的行,完成後把該行發送到螢幕上。sed每處理完一行就將其從臨時緩衝區刪除,然後將下一行讀入,進行處理和顯示。處理完輸入檔案的最後一行後,sed便結束運行。
前面說到sed不會修改檔案,那麼現在我們可以知道是為什麼了?是因為sed把每一行都存在臨時緩衝區中,對這個副本進行編輯,所以不會修改原檔案。
補充知識:
在使用sed的過程中,我們經常會聽到“定址”,那麼什麼是“定址”呢?
定址用於決定對哪些行進行編輯。地址的形式可以是數字、Regex、或二者的結合。如果沒有指定地址,sed將處理輸入檔案的所有行。
1、地址是一個數字,則表示行號;是“$"符號,則表示最後一行。
例如:
[plain] view plaincopy
- sed -n ‘3p‘ datafile #只列印第三行
2、只顯示指定行範圍的檔案內容
例如:
[plain] view plaincopy
- sed -n ‘100,200p‘ mysql_slow_query.log # 只查看檔案的第100行到第200行
3、地址是逗號分隔的,那麼需要處理的地址是這兩行之間的範圍(包括這兩行在內)。範圍可以用數字、Regex、或二者的組合表示。
例如:
[plain] view plaincopy
- sed ‘2,5d‘ datafile
- #刪除第二到第五行
-
- sed ‘/My/,/You/d‘ datafile
- #刪除包含"My"的行到包含"You"的行之間的行
-
- sed ‘/My/,10d‘ datafile
- #刪除包含"My"的行到第十行的內容
三、sed命令和選項
sed命令告訴sed如何處理由地址指定的各輸入行,如果沒有指定地址則處理所有的輸入行。
1、sed命令
命令 |
功能 |
a\ |
在當前行後添加一行或多行。多行時除最後一行外,每行末尾需用“\”續行 |
c\ |
用此符號後的新文本替換當前行中的文本。多行時除最後一行外,每行末尾需用"\"續行 |
i\ |
在當前行之前插入文本。多行時除最後一行外,每行末尾需用"\"續行 |
d |
刪除行 |
h |
把模式空間裡的內容複寫到暫存緩衝區 |
H |
把模式空間裡的內容追加到暫存緩衝區 |
g |
把暫存緩衝區裡的內容複寫到模式空間,覆蓋原有的內容 |
G |
把暫存緩衝區的內容追加到模式空間裡,追加在原有內容的後面 |
l |
列出非列印字元 |
p |
列印行 |
n |
讀入下一輸入行,並從下一條命令而不是第一條命令開始對其的處理 |
q |
結束或退出sed |
r |
從檔案中讀取輸入行 |
! |
對所選行以外的所有行應用程式命令 |
s |
用一個字串替換另一個 |
g |
在行內進行全域替換 |
w |
將所選的行寫入檔案 |
x |
交換暫存緩衝區與模式空間的內容 |
y |
將字元替換為另一字元(不能對Regex使用y命令) |
2、sed選項
選項 |
功能 |
-e |
進行多項編輯,即對輸入行應用多條sed命令時使用 |
-n |
取消預設的輸出 |
-f |
指定sed指令碼的檔案名稱 |
四、Regex元字元
與grep一樣,sed也支援特殊元字元,來進行模式尋找、替換。不同的是,sed使用的Regex是括在斜杠線"/"之間的模式。
如果要把Regex分隔字元"/"改為另一個字元,比如o,只要在這個字元前加一個反斜線,在字元後跟上Regex,再跟上這個字元即可。
例如:
[plain] view plaincopy
- sed -n ‘\o^Myop‘ datafile
常用的Regex如下:
元字元 |
功能 |
樣本 |
^ |
行首定位器 |
/^my/ 匹配所有以my開頭的行 |
$ |
行尾定位器 |
/my$/ 匹配所有以my結尾的行 |
. |
匹配除分行符號以外的單個字元 |
/m..y/ 匹配包含字母m,後跟兩個任一字元,再跟字母y的行 |
* |
匹配零個或多個前置字元 |
/my*/ 匹配包含字母m,後跟零個或多個y字母的行 |
[] |
匹配指定字元組內的任一字元 |
/[Mm]y/ 匹配包含My或my的行 |
[^] |
匹配不在指定字元組內的任一字元 |
/[^Mm]y/ 匹配包含y,但y之前的那個字元不是M或m的行 |
.. |
儲存已匹配的字元 |
1,20s/youself/\1r/ 標記元字元之間的模式,並將其儲存為標籤1,之後可以使用\1來引用它。最多可以定義9個標籤,從左邊開始編號,最左邊的是第一個。此例中,對第1到第20行進行處理,you被儲存為標籤1,如果發現youself,則替換為your。 |
& |
儲存尋找串以便在替換串中引用 |
s/my/**&**/ 符號&代表尋找串。my將被替換為**my** |
\< |
詞首定位器 |
/\<my/ 匹配包含以my開頭的單詞的行 |
\> |
詞尾定位器 |
/my\>/ 匹配包含以my結尾的單詞的行 |
x\{m\} |
連續m個x |
/9\{5\}/匹配包含連續5個9的行 |
x\{m,\} |
至少m個x |
/9\{5,\}/ 匹配包含至少連續5個9的行 |
x\{m,n\} |
至少m個,但不超過n個x |
/9\{5,7\}/ 匹配包含連續5到7個9的行 |
五、sed的退出狀態
sed不向grep一樣,不管是否找到指定的模式,它的退出狀態都是0。只有當命令存在語法錯誤時,sed的退出狀態才不是0。
六、常用範例
1、p命令
命令p用於顯示模式空間的內容。預設情況下,sed把輸入行列印在螢幕上,選項-n用於取消預設的列印操作。當選項-n和命令p同時出現時,sed可列印選定的內容。
例子:
[plain] view plaincopy
- (1)sed ‘/my/p‘ datafile
- #預設情況下,sed把所有輸入行都列印在標準輸出上。如果某行匹配模式my,p命令將把該行另外列印一遍。
-
- (2)sed -n ‘/my/p‘ datafile
- #選項-n取消sed預設的列印,p命令把匹配模式my的行列印一遍。
2、d命令
命令d用於刪除輸入行。sed先將輸入行從檔案複製到模式空間裡,然後對該行執行sed命令,最後將模式空間裡的內容顯示在螢幕上。如果發出的是命令d,當前模式空間裡的輸入行會被刪除,不被顯示。
例子:
[plain] view plaincopy
- (1)sed ‘$d‘ datafile
- #刪除最後一行,其餘的都被顯示
-
- (2)sed ‘/my/d‘ datafile
- #刪除包含my的行,其餘的都被顯示
3、s命令
例子:
[plain] view plaincopy
- (1)sed ‘s/^My/You/g‘ datafile
- #命令末端的g表示在行內進行全域替換,也就是說如果某行出現多個My,所有的My都被替換為You。
-
- (2)sed -n ‘1,20s/My$/You/gp‘ datafile
- #取消預設輸出,處理1到20行裡匹配以My結尾的行,把行內所有的My替換為You,並列印到螢幕上。
-
- (3)sed ‘s#My#Your#g‘ datafile
- #緊跟在s命令後的字元就是尋找串和替換串之間的分隔字元。分隔字元預設為正斜杠,但可以改變。無論什麼字元(分行符號、反斜線除外),只要緊跟s命令,就成了新的串分隔字元。
4、e選項
-e是編輯命令,用於sed執行多個編輯任務的情況下。在下一行開始編輯前,所有的編輯動作將應用到模式緩衝區中的行上。
例子:
[plain] view plaincopy
- sed -e ‘1,10d‘ -e ‘s/My/Your/g‘ datafile
- #選項-e用於進行多重編輯。第一重編輯刪除第1-3行。第二重編輯將出現的所有My替換為Your。因為是逐行進行這兩項編輯(即這兩個命令都在模式空間的當前行上執行),所以編輯命令的順序會影響結果。
5、r命令
r命令是讀命令。sed使用該命令將一個文字檔中的內容加到當前檔案的特定位置上。
例如:
[plain] view plaincopy
- sed ‘/My/r introduce.txt‘ datafile
- #如果在檔案datafile的某一行匹配到模式My,就在該行後讀入檔案introduce.txt的內容。如果出現My的行不止一行,則在出現My的各行後都讀入introduce.txt檔案的內容。
6、w命令
例子:
[plain] view plaincopy
- sed -n ‘/hrwang/w me.txt‘ datafile
7、a\ 命令
a\ 命令是追加命令,追加將添加新文本到檔案中當前行(即讀入模式緩衝區中的行)的後面。所追加的文本行位於sed命令的下方另起一行。如果要追加的內容超過一行,則每一行都必須以反斜線結束,最後一行除外。最後一行將以引號和檔案名稱結束。
例子:
[plain] view plaincopy
- sed ‘/^hrwang/a\
- >hrwang and mjfan are husband\
- >and wife‘ datafile
- #如果在datafile檔案中發現匹配以hrwang開頭的行,則在該行下面追加hrwang and mjfan are husband and wife
8、i\ 命令
i\ 命令是在當前行的前面插入新的文本。
9、c\ 命令
sed使用該命令將已有文本修改成新的文本。
10、n命令
sed使用該命令擷取輸入檔案的下一行,並將其讀入到模式緩衝區中,任何sed命令都將應用到匹配行緊接著的下一行上。
例如:
[plain] view plaincopy
- sed ‘/hrwang/{n;s/My/Your/;}‘ datafile
註:如果需要使用多條命令,或者需要在某個位址範圍內嵌套地址,就必須用花括弧將命令括起來,每行唯寫一條命令,或這用分號分割同一行中的多條命令。
11、y命令
該命令與UNIX/Linux中的tr命令類似,字元按照一對一的方式從左至右進行轉換。例如,y/abc/ABC/將把所有小寫a轉換成A,小寫b轉換成B,小寫c轉換成C。
例如:
[plain] view plaincopy
- sed ‘1,20y/hrwang12/HRWANG^$/‘ datafile
- #將1到20行內,所有的小寫hrwang轉換成大寫,將1轉換成^,將2轉換成$。
- #Regex元字元對y命令不起作用。與s命令的分隔字元一樣,斜線可以被替換成其它的字元。
12、q命令
q命令將導致sed程式退出,不再進行其它的處理。
[plain] view plaincopy
- sed ‘/hrwang/{s/hrwang/HRWANG/;q;}‘ datafile
13、h命令和g命令
為了更好說明這兩個命令,我們先建立如下的文字檔:
[plain] view plaincopy
- #cat datafile
- My name is hrwang.
- Your name is mjfan.
- hrwang is mjfan‘s husband.
- mjfan is hrwang‘s wife.
[plain] view plaincopy
- sed -e ‘/hrwang/h‘ -e ‘$G‘ datafile
- sed -e ‘/hrwang/H‘ -e ‘$G‘ datafile
- #通過上面兩條命令,你會發現h會把原來暫存緩衝區的內容清除,只儲存最近一次執行h時儲存進去的模式空間的內容。而H命令則把每次匹配hrwnag的行都追加儲存在暫存緩衝區。
-
- sed -e ‘/hrwang/H‘ -e ‘$g‘ datafile
- sed -e ‘/hrwang/H‘ -e ‘$G‘ datafile
- #通過上面兩條命令,你會發現g把暫存緩衝區中的內容替換掉了模式空間中當前行的內容,此處即替換了最後一行。而G命令則把暫存緩衝區的內容追加到了模式空間的當前行後。此處即追加到了末尾。
補充知識點:sed特殊用法
[plain] view plaincopy
- sed -n ‘/root/w a.txt‘ #將匹配行輸出到檔案
-
- sed ‘/root/r abc.txt‘ /etc/passwd #把abc.txt的檔案內容讀入到root匹配行後
-
- sed -n ‘/root/w a.txt‘
-
- sed -n ‘/root/{=;p}‘ /etc/passwd #列印行號和匹配root的行
-
- sed -n ‘/root/{n;d}‘ /etc/passwd #將匹配root行的下一行刪除
-
- sed -n ‘/root/{N;d}‘ /etc/passwd #將匹配root行和下一行都刪除
-
- sed ‘22{h;d};23,33{H;d};44G‘ pass
七、sed指令碼編寫方法
1、從檔案讀入命令
[plain] view plaincopy
- sed -f sed.sh
sed.sh檔案內容:
[plain] view plaincopy
- s/root/yerik/p
- s/bash/csh/p
2、直接運行指令碼 ./sed.sh /etc/passwd
[plain] view plaincopy
- #!/bib/sed -f
- s/root/yerik/p
- s/bash/csh/p
八、小技巧
1、用sed 輸出自己的IP 位址
[plain] view plaincopy
- ifconfig eth0 |sed ‘2p‘ |sed ‘s/^.*addr:/ /g‘ |sed ‘s/B.*$ / /g‘
2、在sed的命令列中引用shell變數時要使用雙引號,而不是通常所用的單引號。下面是一個根據name變數的內容來刪除named.conf檔案中zone段的指令碼:
name=‘zone\ "localhost"‘
[plain] view plaincopy
- sed "/$name/,/};/d" named.conf
3、保持和擷取:h命令和G命令
[plain] view plaincopy
- $ sed -e ‘/test/h‘ -e ‘$G example
在sed處理檔案的時候,每一行都被儲存在一個叫模式空間的臨時緩衝區中,除非行被刪除或者輸出被取消,否則所有被處理的行都將列印在螢幕上。接著模式空間被清空,並存入新的一行等待處理。在這個例子裡,匹配test的行被找到後,將存入模式空間,h命令將其複製並存入一個稱為保持緩衝區的特殊緩衝區內。第二條語句的意思是,當到達最後一行後,G命令取出保持緩衝區的行,然後把它放回模式空間中,且追加到現在已經存在於模式空間中的行的末尾。在這個例子中就是追加到最後一行。簡單來說,任何包含test的行都被複製並追加到該檔案的末尾。
4、保持和互換:h命令和x命令
[plain] view plaincopy
- $ sed -e ‘/test/h‘ -e ‘/check/x‘ example
互換模式空間和保持緩衝區的內容。也就是把包含test與check的行互換。
九、練習
1,刪除檔案每行的第一個字元。
- sed -n ‘s/^.//gp‘ /etc/passwd
- sed -nr ‘s/(.)(.*)/\2/p‘ /etc/passwd
2,刪除檔案每行的第二個字元。
- sed -nr ‘s/(.)(.)(.*)/\1\3/p‘ /etc/passwd
3,刪除檔案每行的最後一個字元。
- sed -nr ‘s/.$//p‘ /etc/passwd
- sed -nr ‘s/(.*)(.)/\1/p‘ /etc/passwd
4,刪除檔案每行的倒數第二個字元。
- sed -nr ‘s/(.*)(.)(.)/\1\3/p‘ /etc/passwd
5,刪除檔案每行的第二個單詞。
- sed -nr ‘s/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\1\2\3\5/p‘ /etc/passwd
6,刪除檔案每行的倒數第二個單詞。
- sed -nr ‘s/(.*)([^a-Z]+)([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]*)/\1\2\4\5\6/p‘ /etc/samba/smb.conf
7,刪除檔案每行的最後一個單詞。
- sed -nr ‘s/(.*)([^a-Z]+)([a-Z]+)([^a-Z]*)/\1\2\4/p‘ /etc/samba/smb.conf
8,交換每行的第一個字元和第二個字元。
- sed -nr ‘s/(.)(.)(.*)/\2\1\3/p‘ /etc/passwd
9,交換每行的第一個單詞和第二個單詞。
- sed -nr ‘s/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\1\4\3\2\5/p‘ /etc/samba/smb.conf
10,交換每行的第一個單詞和最後一個單詞。
- sed -nr ‘s/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\1\4\3\2\5/p‘ /etc/passwd
11,刪除一個檔案中所有的數字。
- sed ‘s/[0-9]*//g‘ /etc/passwd
12,刪除每行開頭的所有空格。
- sed -n ‘s/^\ *//p‘ /etc/samba/smb.conf
- sed -nr ‘s/( *)(.*)/\2/p‘ testp
13,用定位字元替換檔案中出現的所有空格。
- sed -n ‘s/\ /\t/gp‘ pass
14,把所有大寫字母用括弧()括起來。
- sed -nr ‘s/([A-Z])/(&)/gp‘ testp
- sed -n ‘s/[A-Z]/(&)/gp‘ testp
15,列印每行3次。
- sed ‘p;p‘ pass
16,隔行刪除。
- sed -n ‘1~2p‘ pass
17,把檔案從第22行到第33行複製到第44行後面。
- sed ‘1,21h;22h;23,33H;44G‘ pass
18,把檔案從第22行到第33行移動到第44行後面。
- sed ‘22{h;d};23,33{H;d};44G‘ pass
19,只顯示每行的第一個單詞。
- sed -nr ‘s/([^a-Z]*)([a-Z]+)([^a-Z]+)(.*)/\2/p‘ /etc/passwd
20,列印每行的第一個單詞和第三個單詞。
- sed -nr ‘s/([^a-Z]*)([a-Z]+)([^a-Z]+)([a-Z]+)([^a-Z]+)([a-Z]+)(.*)/\2--\4/p‘ /etc/passwd
21,將格式為 mm/yy/dd 的日期格式換成 mm;yy;dd
- date +%m/%Y/%d |sed -n ‘s#/#;#gp‘
22, 逆向輸出
- cat a.txt
- ABC
- DEF
- XYZ
- 輸出樣式變成
- XYZ
- DEF
- ABC
Shell指令碼學習之sed詳解