Shell 常用文本處理命令

來源:互聯網
上載者:User

標籤:bash   awk   linux   shell   sed   

grep如果要使用Regex需要加上參數  grep -E "[a-z]+"  #使用Regex
或者  egrep "[a-z]+"

-A  -B  輸出匹配到行前面或後面的幾行  -C 則可以同時顯示前後幾行
-e  匹配多個樣式,如 grep -e "cat" -e "dog" file 
-i  忽略文本的大小寫
-o  只輸出文本中匹配到的文本
-c  統計匹配到的行數(注意不是次數)如果要統計匹配到次數,可以使用 echo -e "1 2 3 4\nhello\n5 6" | egrep -o "[0-9]" | wc -l
-l  找出某一個字串出現的檔案名稱
-n  輸出行數
-R  在目錄中多級遞迴搜尋
--include  在特定檔案中搜尋 如 --include *.{c,cpp}
-q  靜默輸出


cut按列切分檔案
-f1,2,3  顯示第1,2,3列的資料
-d       指定資料行分隔符號

-c1-5,6-9 --output-delimiter ","   顯示第1-5和7-9個字元


sedsed 是一種線上編輯器,它一次處理一行內容。常用來將資料行進行 替換刪除、新增、選取等特定工作。
常用選項:
        -n∶使用安靜(silent)模式。在一般 sed 的用法中,所有來自 STDIN的資料一般都會被列出到螢幕上。但如果加上 -n 參數後,則只有經過sed 特殊處理的那一行(或者動作)才會被列出來。
        -e∶直接在指令列模式上進行 sed 的動作編輯;
        -f∶直接將 sed 的動作寫在一個檔案內, -f filename 則可以執行 filename 內的sed 動作;
        -r∶sed 的動作支援的是延伸型正規標記法的文法。(預設是基礎正規標記法文法)
        -i∶直接修改讀取的檔案內容,而不是由螢幕輸出。       

常用命令:
        a   ∶新增, a 的後面可以接字串,而這些字串會在新的一行出現(目前的下一行)~
        c   ∶取代, c 的後面可以接字串,這些字串可以取代 n1,n2 之間的行!
        d   ∶刪除,因為是刪除,所以 d 後面通常不接任何咚咚;

         i   ∶插入, i 的後面可以接字串,而這些字串會在新的一行出現(目前的上一行);
         p  ∶列印,亦即將某個選擇的資料印出。通常 p 會與參數 sed -n 一起運作~
         s  ∶取代,可以直接進行取代的工作哩!通常這個 s 的動作可以搭配正規標記法!例如 1,20s/old/new/g 就是啦!


舉例:(假設我們有一檔案名稱為ab)
     刪除某行
     [[email protected] ruby] # sed ‘1d‘ ab              #刪除第一行 
     [[email protected] ruby] # sed ‘$d‘ ab              #刪除最後一行
     [[email protected] ruby] # sed ‘1,2d‘ ab           #刪除第一行到第二行
     [[email protected] ruby] # sed ‘2,$d‘ ab           #刪除第二行到最後一行


  顯示某行
.    [[email protected] ruby] # sed -n ‘1p‘ ab           #顯示第一行 
     [[email protected] ruby] # sed -n ‘$p‘ ab           #顯示最後一行
     [[email protected] ruby] # sed -n ‘1,2p‘ ab        #顯示第一行到第二行
     [[email protected] ruby] # sed -n ‘2,$p‘ ab        #顯示第二行到最後一行


  使用模式進行查詢
     [[email protected] ruby] # sed -n ‘/ruby/p‘ ab    #查詢包括關鍵字ruby所在所有行
     [[email protected] ruby] # sed -n ‘/\$/p‘ ab        #查詢包括關鍵字$所在所有行,使用反斜線\屏蔽特殊含義


  增加一行或多行字串
     [[email protected] ruby]# cat ab
     Hello!
     ruby is me,welcome to my blog.
     end
      [[email protected] ruby] # sed ‘1a drink tea‘ ab  #第一行後增加字串"drink tea"
     Hello!
     drink tea
     ruby is me,welcome to my blog. 
     end
     [[email protected] ruby] # sed ‘1,3a drink tea‘ ab #第一行到第三行後增加字串"drink tea"
     Hello!
     drink tea
     ruby is me,welcome to my blog.
     drink tea
     end
     drink tea
     [[email protected] ruby] # sed ‘1a drink tea\nor coffee‘ ab   #第一行後增加多行,使用分行符號\n
     Hello!
     drink tea
     or coffee
     ruby is me,welcome to my blog.
     end


 代替一行或多行
     [[email protected] ruby] # sed ‘1c Hi‘ ab                #第一行代替為Hi
     Hi
     ruby is me,welcome to my blog.
     end
     [[email protected] ruby] # sed ‘1,2c Hi‘ ab             #第一行到第二行代替為Hi
     Hi
     end


 替換一行中的某部分
 格式:sed ‘s/要替換的字串/新的字串/g‘   (要替換的字串可以用Regex)
     [[email protected] ruby] # sed -n ‘/ruby/p‘ ab | sed ‘s/ruby/bird/g‘    #替換ruby為bird
   [[email protected] ruby] # sed -n ‘/ruby/p‘ ab | sed ‘s/ruby//g‘        #刪除ruby


     插入
     [[email protected] ruby] # sed -i ‘$a bye‘ ab         #在檔案ab中最後一行直接輸入"bye"
     [[email protected] ruby]# cat ab
     Hello!
     ruby is me,welcome to my blog.
     end
     bye




awk

awk是一個強大的文本分析工具,相對於grep的尋找,sed的編輯,awk在其對資料分析並產生報告時,顯得尤為強大。

簡單來說awk就是把檔案逐行的讀入,以空格為預設分隔符號將每行切片,切開的部分再進行各種分析處理

awk有3個不同版本: awk、nawk和gawk,未作特別說明,一般指gawk,gawk 是 AWK 的 GNU 版本。
基本文法: awk ‘{pattern + action}‘ {filenames}


#last -n 5 | awk  '{print $1}'rootrootrootdmtsairoot

awk工作流程是這樣的:讀入有‘\n‘分行符號分割的一條記錄,然後將記錄按指定的域分隔字元劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域。預設域分隔字元是"空白鍵" 或 "[tab]鍵",所以$1表示登入使用者,$3表示登入使用者ip,以此類推。


cat /etc/passwd |awk  -F ':'  'BEGIN {print "name,shell"}  {print $1","$7} END {print "blue,/bin/nosh"}'name,shellroot,/bin/bashdaemon,/bin/shbin,/bin/shsys,/bin/sh

awk工作流程是這樣的:先執行BEGING,然後讀取檔案,讀入有/n分行符號分割的一條記錄,然後將記錄按指定的域分隔字元劃分域,填充域,$0則表示所有域,$1表示第一個域,$n表示第n個域,隨後開始執行模式所對應的動作action。接著開始讀入第二條記錄······直到所有的記錄都讀完,最後執行END操作。


awk內建變數
awk有許多內建變數用來設定環境資訊,這些變數可以被改變,下面給出了最常用的一些變數。
ARGC               命令列參數個數
ARGV               命令列參數排列
ENVIRON            支援隊列中系統內容變數的使用
FILENAME           awk瀏覽的檔案名稱
FNR                瀏覽檔案的記錄數
FS                 設定輸入欄位分隔字元,等價於命令列 -F選項
NF                 瀏覽記錄的域的個數
NR                 已讀的記錄數
OFS                輸出域分隔字元
ORS                輸出記錄分隔字元
RS                 控制記錄分隔字元




統計/etc/passwd:檔案名稱,每行的行號,每行的列數,對應的完整行內容:
#awk  -F ':'  '{print "filename:" FILENAME ",linenumber:" NR ",columns:" NF ",linecontent:"$0}' /etc/passwdfilename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bashfilename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/shfilename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/shfilename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

統計某個檔案夾下的檔案佔用的位元組數
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size}'[end]size is  8657198


如果以M為單位顯示:
ls -l |awk 'BEGIN {size=0;} {size=size+$5;} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is  8.25889 M

注意,統計不包括檔案夾的子目錄。 


條件陳述式
awk中的條件陳述式是從C語言中借鑒來的,見如下聲明方式:
if (expression) {
    statement;
    statement;
    ... ...
}


if (expression) {
    statement;
} else {
    statement2;
}


if (expression) {
    statement1;
} else if (expression1) {
    statement2;
} else {
    statement3;
}
 


統計某個檔案夾下的檔案佔用的位元組數,過濾4096大小的檔案(一般都是檔案夾):
ls -l |awk 'BEGIN {size=0;print "[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print "[end]size is ", size/1024/1024,"M"}' [end]size is  8.22339 M


迴圈語句
awk中的迴圈語句同樣借鑒於C語言,支援while、do/while、for、break、continue,這些關鍵字的語義和C語言中的語義完全相同。

 
數組
因為awk中數組的下標可以是數字和字母,數組的下標通常被稱為關鍵字(key)。值和關鍵字都儲存在內部的一張針對key/value應用hash的表格裡。由於hash不是順序儲存,因此在顯示數組內容時會發現,它們並不是按照你預料的順序顯示出來的。數組和變數一樣,都是在使用時自動建立的,awk也同樣會自動判斷其儲存的是數字還是字串。一般而言,awk中的數組用來從屬記錄中收集資訊,可以用於計算總和、統計單詞以及跟蹤模板被匹配的次數等等。


顯示/etc/passwd的賬戶
awk -F ':' 'BEGIN {count=0;} {name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}' /etc/passwd0 root1 daemon2 bin3 sys4 sync5 games......

這裡使用for迴圈遍曆數組

Shell 常用文本處理命令

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.