標籤:bash awk linux shell sed
grep如果要使用Regex需要加上參數 grep -E "[a-z]+" #使用Regex
或者 egrep "[a-z]+"
-A -B 輸出匹配到行前面或後面的幾行 -C 則可以同時顯示前後幾行
-e 匹配多個樣式,如 grep -e "cat" -e "dog" file
-i 忽略文本的大小寫
-o 只輸出文本中匹配到的文本
-c 統計匹配到的行數(注意不是次數)如果要統計匹配到次數,可以使用 echo -e "1 2 3 4\nhello\n5 6" | egrep -o "[0-9]" | wc -l
-l 找出某一個字串出現的檔案名稱
-n 輸出行數
-R 在目錄中多級遞迴搜尋
--include 在特定檔案中搜尋 如 --include *.{c,cpp}
-q 靜默輸出
cut按列切分檔案
-f1,2,3 顯示第1,2,3列的資料
-d 指定資料行分隔符號
-c1-5,6-9 --output-delimiter "," 顯示第1-5和7-9個字元
sedsed 是一種線上編輯器,它一次處理一行內容。常用來將資料行進行
替換、
刪除、新增、選取等特定工作。
常用選項:
-n∶使用安靜(silent)模式。在一般 sed 的用法中,所有來自 STDIN的資料一般都會被列出到螢幕上。但如果加上 -n 參數後,則只有經過sed 特殊處理的那一行(或者動作)才會被列出來。
-e∶直接在指令列模式上進行 sed 的動作編輯;
-f∶直接將 sed 的動作寫在一個檔案內, -f filename 則可以執行 filename 內的sed 動作;
-r∶sed 的動作支援的是延伸型正規標記法的文法。(預設是基礎正規標記法文法)
-i∶直接修改讀取的檔案內容,而不是由螢幕輸出。
常用命令:
a ∶新增, a 的後面可以接字串,而這些字串會在新的一行出現(目前的下一行)~
c ∶取代, c 的後面可以接字串,這些字串可以取代 n1,n2 之間的行!
d ∶刪除,因為是刪除,所以 d 後面通常不接任何咚咚;
i ∶插入, i 的後面可以接字串,而這些字串會在新的一行出現(目前的上一行);
p ∶列印,亦即將某個選擇的資料印出。通常 p 會與參數 sed -n 一起運作~
s ∶取代,可以直接進行取代的工作哩!通常這個 s 的動作可以搭配正規標記法!例如 1,20s/old/new/g 就是啦!
舉例:(假設我們有一檔案名稱為ab)
刪除某行
[[email protected] ruby] # sed ‘1d‘ ab #刪除第一行
[[email protected] ruby] # sed ‘$d‘ ab #刪除最後一行
[[email protected] ruby] # sed ‘1,2d‘ ab #刪除第一行到第二行
[[email protected] ruby] # sed ‘2,$d‘ ab #刪除第二行到最後一行
顯示某行
. [[email protected] ruby] # sed -n ‘1p‘ ab #顯示第一行
[[email protected] ruby] # sed -n ‘$p‘ ab #顯示最後一行
[[email protected] ruby] # sed -n ‘1,2p‘ ab #顯示第一行到第二行
[[email protected] ruby] # sed -n ‘2,$p‘ ab #顯示第二行到最後一行
使用模式進行查詢
[[email protected] ruby] # sed -n ‘/ruby/p‘ ab #查詢包括關鍵字ruby所在所有行
[[email protected] ruby] # sed -n ‘/\$/p‘ ab #查詢包括關鍵字$所在所有行,使用反斜線\屏蔽特殊含義
增加一行或多行字串
[[email protected] ruby]# cat ab
Hello!
ruby is me,welcome to my blog.
end
[[email protected] ruby] # sed ‘1a drink tea‘ ab #第一行後增加字串"drink tea"
Hello!
drink tea
ruby is me,welcome to my blog.
end
[[email protected] ruby] # sed ‘1,3a drink tea‘ ab #第一行到第三行後增加字串"drink tea"
Hello!
drink tea
ruby is me,welcome to my blog.
drink tea
end
drink tea
[[email protected] ruby] # sed ‘1a drink tea\nor coffee‘ ab #第一行後增加多行,使用分行符號\n
Hello!
drink tea
or coffee
ruby is me,welcome to my blog.
end
代替一行或多行
[[email protected] ruby] # sed ‘1c Hi‘ ab #第一行代替為Hi
Hi
ruby is me,welcome to my blog.
end
[[email protected] ruby] # sed ‘1,2c Hi‘ ab #第一行到第二行代替為Hi
Hi
end
替換一行中的某部分
格式:sed ‘s/要替換的字串/新的字串/g‘ (要替換的字串可以用Regex)
[[email protected] ruby] # sed -n ‘/ruby/p‘ ab | sed ‘s/ruby/bird/g‘ #替換ruby為bird
[[email protected] ruby] # sed -n ‘/ruby/p‘ ab | sed ‘s/ruby//g‘ #刪除ruby
插入
[[email protected] ruby] # sed -i ‘$a bye‘ ab #在檔案ab中最後一行直接輸入"bye"
[[email protected] ruby]# cat ab
Hello!
ruby is me,welcome to my blog.
end
bye
awk
awk是一個強大的文本分析工具,相對於grep的尋找,sed的編輯,awk在其對資料分析並產生報告時,顯得尤為強大。
簡單來說awk就是把檔案逐行的讀入,以空格為預設分隔符號將每行切片,切開的部分再進行各種分析處理。
awk有3個不同版本: awk、nawk和gawk,未作特別說明,一般指gawk,gawk 是 AWK 的 GNU 版本。
基本文法: awk ‘{pattern + action}‘ {filenames}
#last -n 5 | awk '{print $1}'rootrootrootdmtsairoot
awk工作流程是這樣的:讀入有‘\n‘分行符號分割的一條記錄,然後將記錄按指定的域分隔字元劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域。預設域分隔字元是"空白鍵" 或 "[tab]鍵",所以$1表示登入使用者,$3表示登入使用者ip,以此類推。
cat /etc/passwd |awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blue,/bin/nosh"}'name,shellroot,/bin/bashdaemon,/bin/shbin,/bin/shsys,/bin/sh
awk工作流程是這樣的:先執行BEGING,然後讀取檔案,讀入有/n分行符號分割的一條記錄,然後將記錄按指定的域分隔字元劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域,隨後開始執行模式所對應的動作action。接著開始讀入第二條記錄······直到所有的記錄都讀完,最後執行END操作。
awk內建變數
awk有許多內建變數用來設定環境資訊,這些變數可以被改變,下面給出了最常用的一些變數。
ARGC 命令列參數個數
ARGV 命令列參數排列
ENVIRON 支援隊列中系統內容變數的使用
FILENAME awk瀏覽的檔案名稱
FNR 瀏覽檔案的記錄數
FS 設定輸入欄位分隔字元,等價於命令列 -F選項
NF 瀏覽記錄的域的個數
NR 已讀的記錄數
OFS 輸出域分隔字元
ORS 輸出記錄分隔字元
RS 控制記錄分隔字元
統計/etc/passwd:檔案名稱,每行的行號,每行的列數,對應的完整行內容:
#awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwdfilename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bashfilename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/shfilename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/shfilename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh
統計某個檔案夾下的檔案佔用的位元組數
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'[end]size is 8657198
如果以M為單位顯示:
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is 8.25889 M
注意,統計不包括檔案夾的子目錄。
條件陳述式
awk中的條件陳述式是從C語言中借鑒來的,見如下聲明方式:
if (expression) {
statement;
statement;
... ...
}
if (expression) {
statement;
} else {
statement2;
}
if (expression) {
statement1;
} else if (expression1) {
statement2;
} else {
statement3;
}
統計某個檔案夾下的檔案佔用的位元組數,過濾4096大小的檔案(一般都是檔案夾):
ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is 8.22339 M
迴圈語句
awk中的迴圈語句同樣借鑒於C語言,支援while、do/while、for、break、continue,這些關鍵字的語義和C語言中的語義完全相同。
數組
因為awk中數組的下標可以是數字和字母,數組的下標通常被稱為關鍵字(key)。值和關鍵字都儲存在內部的一張針對key/value應用hash的表格裡。由於hash不是順序儲存,因此在顯示數組內容時會發現,它們並不是按照你預料的順序顯示出來的。數組和變數一樣,都是在使用時自動建立的,awk也同樣會自動判斷其儲存的是數字還是字串。一般而言,awk中的數組用來從屬記錄中收集資訊,可以用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。
顯示/etc/passwd的賬戶
awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd0 root1 daemon2 bin3 sys4 sync5 games......
這裡使用for迴圈遍曆數組
Shell 常用文本處理命令