awk基礎知識小結第1/2頁_linux shell

來源:互聯網
上載者:User

1、使用規則

awk 適合於文本處理和報表產生,它還有許多精心設計的特性,允許進行需要特殊技巧程式設計。
awk 的文法較為常見。它借鑒了某些語言的一些精華部分,如C 語言、python 和 bash。

第一個 awk
讓我們繼續,開始使用 awk,以瞭解其工作原理。在命令列中輸入以下命令:
$ awk '{ print }' /etc/passwd
您將會見到 /etc/passwd 檔案的內容出現在眼前。現在,解釋 awk 做了些什麼。調用 awk 時,我們指定 /etc/passwd 作為輸入檔案。執行 awk 時,它依次對 /etc/passwd 中的每一行執行 print 命令。所有輸出都發送到 stdout,所得到的結果與與執行catting /etc/passwd完全相同。

現在,解釋 { print } 代碼塊。在 awk 中,花括弧用於將幾塊程式碼群組合到一起,這一點類似於 C 語言。在代碼塊中只有一條 print 命令。在 awk 中,如果只出現 print 命令,那麼將列印當前行的全部內容。

這裡是另一個awk 樣本,作用與上例完全相同:
$ awk '{ print $0 }' /etc/passwd

在 awk 中,$0 變數表示整個當前行,所以 print 和 print $0 的作用完全一樣。

建立一個 awk 程式,讓它輸出與輸入資料完全無關的資料。
樣本1:
$ awk '{ print "" }' /etc/passwd
只要將 "" 字串傳遞給 print 命令,它就會列印空白行。測試該指令碼,將會發現對於/etc/passwd檔案中的每一行,awk 都輸出一個空白行。由此可知,awk對輸入檔案中的每一行都執行這個指令碼。

樣本2:
$ awk '{ print "hiya" }' /etc/passwd
運行此指令碼將在您的螢幕上寫滿 hiya。

2、處理多個欄位
awk 非常善於處理分成多個邏輯欄位的文本,還可以引用 awk 指令碼中每個獨立的欄位。
列印系統上所有使用者帳戶的列表:
$ awk -F":" '{ print $1 }' /etc/passwd
上例中,調用awk時,使用 -F 選項來指定 ":" 作為欄位分隔符號。awk 處理 print $1 命令時,它會列印出在輸入檔案中每一行中出現的第一個欄位。
以下是另一樣本:
$ awk -F":" '{ print $1 $3 }' /etc/passwd

以下是該指令碼輸出的摘錄:
halt7
operator11
root0
shutdown6
sync5
bin1
....etc.

如您所見,awk 列印出 /etc/passwd 檔案的第一和第三個欄位,它們正好分別是使用者名稱和使用者識別欄位。現在,當指令碼運行時,它並不理想--在兩個輸出欄位之間沒有空格!如果習慣於使用 bash 或 python 進行編程,那麼您會指望 print $1 $3 命令在兩個欄位之間插入空格。然而,當兩個字串在 awk 程式中彼此相鄰時,awk 會串連它們但不在它們之間添加空格。以下命令會在這兩個欄位中插入空格:
$ awk -F":" '{ print $1 " " $3 }' /etc/passwd

以這種方式調用 print 時,它將串連 $1、" " 和 $3,建立可讀的輸出。
還可以插入一些文字標籤:
$ awk -F":" '{ print "username: " $1 "ttuid:" $3" }' /etc/passwd

這將產生以下輸出:
username: halt          uid:7
username: operator      uid:11
username: root          uid:0
username: shutdown      uid:6
username: sync          uid:5
username: bin           uid:1
....etc.

3、調用外部指令碼
將指令碼作為命令列自變數傳遞給awk對於小的單行程式來說很簡單。
而對於多行程式,則可以在外部檔案中撰寫指令碼,然後向awk傳遞-f選項,以向它提供外部指令檔的調用:
$ awk -f myscript.awk myfile.in

將指令碼放入文字檔還可以使用附加awk功能。例如:
BEGIN {
      FS=":"
}
{ print $1 }
列印出 /etc/passwd 中每一行的第一個欄位

在這個指令碼中,欄位分隔符號在代碼自身中指定(通過設定 FS 變數)。
在指令碼自身中設定欄位分隔符號,可以少輸入一個命令列自變數。

4、begin和end塊

BEGIN 和 END 塊
通常,對於每個輸入行,awk 都會執行每個指令碼代碼塊一次。然而,可能需要在 awk 開始處理輸入檔案中的文本之前執行初始化代碼。對於這種情況,awk 允許您定義一個 BEGIN 塊。我們在前一個樣本中使用了 BEGIN 塊。因為 awk 在開始處理輸入檔案之前會執行 BEGIN 塊,因此它是初始化 FS(欄位分隔符號)變數、列印頁首或初始化其它在程式中以後會引用的全域變數的極佳位置。

awk 還提供了另一個特殊塊,叫作 END 塊。awk 在處理了輸入檔案中的所有行之後執行這個塊。通常,END 塊用於執行最終計算或列印應該出現在輸出資料流結尾的摘要資訊。

5、Regex
awk 允許使用Regex,根據Regex是否匹配當前行來選擇執行獨立代碼塊。
輸出包含字元序列foo的行:
/foo/ { print }

複雜點的,只列印包含浮點數的行:
/[0-9]+.[0-9]*/ { print }

可以將任意一種布林運算式放在一個代碼塊之前,以控制何時執行某特定塊。僅當對前面的布林運算式求值為真時,awk 才執行代碼塊。以下樣本指令碼輸出將輸出其第一個欄位等於 fred 的所有行中的第三個欄位。如果當前行的第一個欄位不等於 fred,awk 將繼續處理檔案而不對當前行執行 print 語句:
$1 == "fred" { print $3 }

awk 提供了完整的比較子集合,包括 "=="、"<"、">"、"<="、">=" 和 "!="。另外,awk 還提供了 "~" 和 "!~" 運算子,它們分別表示“匹配”和“不匹配”。
它們的用法是在運算子左邊指定變數,在右邊指定Regex。如果某一行的第五個欄位包含字元序列 root,以下樣本只列印這一行中的第三個欄位:
$5 ~ /root/ { print $3 }

6、條件陳述式
awk 還提供了非常好的類似於 C 語言的 if 語句。if 語句樣本:
{
    if ( $5 ~ /root/ ) {
       print $3
    }
}
對每一個輸入行執行代碼塊,使用 if 語句來選擇執行 print 命令。
更複雜的 awk if 語句樣本。
{
    if ( $1 == "foo" ) {
       if ( $2 == "foo" ) {
            print "uno"
        } else {
          print "one"
        }
          } else if ($1 == "bar" ) {
                    print "two"
                 } else {
                    print "three"
                 }
}

使用 if 語句還可以將代碼:
! /matchme/ { print $1 $3 $4 }
轉換成:
{
     if ( $0 !~ /matchme/ ) {
         print $1 $3 $4
     }
}
這兩個指令碼都只輸出不包含 matchme 字元序列的那些行。

awk 還允許使用布林運算子 "||"(邏輯與)和 "&&"(邏輯或),以便建立更複雜的布林運算式:
( $1 == "foo" ) && ( $2 == "bar" ) { print }
這個樣本只列印第一個欄位等於 foo 且第二個欄位等於 bar 的行。

7、變數
awk的變數,數值變數與字串變數。

數值變數
至今,我們不是列印字串、整行就是特定欄位。然而,awk還可以執行整數和浮點運算。使用數學運算式,可以很方便地編寫計算檔案中空白行數量的指令碼。
BEGIN   { x=0 }
/^$/    { x=x+1 }
END     { print "I found " x " blank lines. :}" }
在 BEGIN 塊中,將整數變數 x 初始化成零。然後,awk 每次遇到空白行時,awk 將執行 x=x+1 語句,遞增 x。
處理完所有行之後,執行 END 塊,awk 將列印出最終摘要,指出它找到的空白行數量。

字串化變數
awk 的優點之一就是“簡單和字串化”。我認為 awk 變數“字串化”是因為所有 awk 變數在內部都是按字串形式儲存的。同時,awk 變數是“簡單的”,因為可以對它執行數學操作,且只要變數包含有效數字字串,awk 會自動處理字串到數位轉換步驟。要理解我的觀點,請研究以下樣本:
x="1.01"
# We just set x to contain the *string* "1.01"
x=x+1
# We just added one to a *string*
print x
# Incidentally, these are comments :)
awk 將輸出:
2.01

雖然將字串值 1.01 賦值給變數 x,仍然可以對它加一。但在 bash 和 python 中卻不能這樣做。
首先,bash 不支援浮點運算。而且,如果 bash 有“字串化”變數,它們並不“簡單”;要執行任何數學操作,bash 要求我們將數字放到醜陋的 $( ) ) 結構中。
如果使用 python,則必須在對 1.01 字串執行任何數學運算之前,將它轉換成浮點值。雖然這並不困難,但它仍是附加的步驟。
如果使用 awk,它是全自動的,而那會使我們的代碼又好又整潔。如果想要對每個輸入行的第一個欄位乘方並加一,可以使用以下指令碼:
{ print ($1^2)+1 }

如果做一個小實驗,就可以發現如果某個特定變數不包含有效數字,awk 在對數學運算式求值時會將該變數當作數字零處理。

8、運算子
awk 有完整的數學運算子集合。除了標準的加、減、乘、除,awk 還允許使用前面示範過的指數運算子 "^"、模(餘數)運算子 "%" 和其它許多從 C 語言中借入的便於使用的賦值操作符。

這些運算子包括前後加減(i++、--foo)、加/減/乘/除賦值運算子( a+=3、b*=2、c/=2.2、d-=6.2)。不僅如此 -- 我們還有便於使用的模/指數賦值運算子(a^=2、b%=4)。

欄位分隔符號
awk 有它自己的特殊變數集合。其中一些允許調整 awk 的運行方式,而其它變數可以被讀取以收集關於輸入的有用資訊。我們已經接觸過這些特殊變數中的一個,FS。前面已經提到過,這個變數讓您可以設定 awk 要尋找的欄位之間的字元序列。我們使用 /etc/passwd 作為輸入時,將 FS 設定成 ":"。當這樣做有問題時,我們還可以更靈活地使用 FS。

FS 值並沒有被限制為單一字元;可以通過指定任意長度的字元模式,將它設定成規則運算式。如果正在處理由一個或多個 tab 分隔的欄位,您可能希望按以下方式設定 FS:
FS="t+"

以上樣本中,我們使用特殊 "+" 規則運算式字元,它表示“一個或多個前一字元”。

如果欄位由空格分隔(一個或多個空格或 tab),您可能想要將 FS 設定成以下規則運算式:
FS="[[:space:]+]"

這個賦值運算式也有問題,它並非必要。為什嗎?因為預設情況下,FS 設定成單一空白字元,awk 將這解釋成表示“一個或多個空格或 tab”。在這個特殊樣本中,預設 FS 設定恰恰是您最想要的!

複雜的規則運算式也不成問題。即使您的記錄由單詞 "foo" 分隔,後面跟著三個數字,以下規則運算式仍允許對資料進行正確的分析:

FS="foo[0-9][0-9][0-9]"

欄位數量
接著我們要討論的兩個變數通常並不是需要賦值的,而是用來讀取以擷取關於輸入的有用資訊。第一個是 NF 變數,也叫做“欄位數量”變數。awk 會自動將該變數設定成目前記錄中的欄位數量。可以使用 NF 變數來只顯示某些輸入行:
NF == 3 { print "this particular record has three fields: " $0 }
當然,也可以在條件陳述式中使用 NF 變數,如下:
{  
    if ( NF > 2 ) {
       print $1 " " $2 ":" $3
    }
}

9、處理記錄
記錄號
記錄號 (NR) 是另一個方便的變數。它始終包含目前記錄的編號(awk 將第一個記錄算作記錄號 1)。迄今為止,我們已經處理了每一行包含一個記錄的輸入檔案。對於這些情況,NR 還會告訴您當前行號。然而,當我們在本系列以後部分中開始處理多行記錄時,就不會再有這種情況,所以要注意!可以象使用 NF 變數一樣使用 NR 來只列印某些輸入行:
(NR < 10 ) || (NR > 100) { print "We are on record number 1-9 or 101+" }
另一個樣本:
{
   #skip header
   if (NR>10) {
       print "ok, now for the real information!"
   }

}

awk 提供了適合各種用途的附加變數。我們將在以後的文章中討論這些變數。

多行記錄
awk 是一種用於讀取和處理結構化資料(如系統的 /etc/passwd 檔案)的極佳工具。/etc/passwd 是 UNIX 使用者資料庫,並且是用冒號定界的文字檔,它包含許多重要訊息,包括所有現有使用者帳戶和使用者標識,以及其它資訊。在我的前一篇文章中,我示範了 awk 如何輕鬆地分析這個檔案。我們只須將 FS(欄位分隔符號)變數設定成 ":"。

正確設定了 FS 變數之後,就可以將 awk 配置成分析幾乎任何類型的結構化資料,只要這些資料是每行一個記錄。然而,如果要分析佔據多行的記錄,僅僅依靠設定 FS 是不夠的。在這些情況下,我們還需要修改 RS 記錄分隔字元變數。RS 變數告訴 awk 目前記錄什麼時候結束,新記錄什麼時候開始。

譬如,讓我們討論一下如何完成處理“聯邦證人保護計劃”所涉及人員的地址清單的任務:
Jimmy the Weasel
100 Pleasant Drive
San Francisco, CA 12345
Big Tony
200 Incognito Ave.
Suburbia, WA 67890

理論上,我們希望 awk 將每 3 行看作是一個獨立的記錄,而不是三個獨立的記錄。如果 awk 將地址的第一行看作是第一個欄位 ($1),街道地址看作是第二個欄位 ($2),城市、州和郵遞區號看作是第三個欄位 $3,那麼這個代碼就會變得很簡單。代碼如下:
BEGIN {
  FS="n"
  RS=""
}

在上面這段代碼中,將 FS 設定成 "n" 告訴 awk 每個欄位都佔據一行。通過將 RS 設定成 "",還會告訴 awk 每個地址記錄都由空白行分隔。一旦 awk 知道是如何格式化輸入的,它就可以為我們執行所有分析工作,指令碼的其餘部分很簡單。讓我們研究一個完整的指令碼,它將分析這個地址清單,並將每個記錄列印在一行上,用逗號分隔每個欄位。
address.awk BEGIN {
   FS="n"
   RS=""
}
{
  print $1 ", " $2 ", " $3
}

將指令碼儲存為 address.awk,地址資料存放區在檔案 address.txt 中,可以通過輸入 "awk -f address.awk address.txt" 執行此指令碼。輸出如下:
Jimmy the Weasel, 100 Pleasant Drive, San Francisco, CA 12345
Big Tony, 200 Incognito Ave., Suburbia, WA 67890

OFS 和 ORS
在 address.awk 的 print 語句中,可以看到 awk 會串連(合并)一行中彼此相鄰的字串。我們使用此功能在同一行上的三個欄位之間插入一個逗號和空格 (", ")。這個方法雖然有用,但比較難看。與其在欄位間插入 ", " 字串,倒不如讓通過設定一個特殊 awk 變數 OFS,讓 awk 完成這件事。
print "Hello", "there", "Jim!"

這行代碼中的逗號並不是實際文字字串的一部分。事實上,它們告訴 awk "Hello"、"there" 和 "Jim!" 是單獨的欄位,並且應該在每個字串之間列印 OFS 變數。
預設情況下,awk 產生以下輸出:
Hello there Jim!

這是預設情況下的輸出結果,OFS 被設定成 " ",單個空格。不過,我們可以方便地重新定義 OFS,這樣 awk 將插入我們中意的欄位分隔符號。以下是原始 address.awk 程式的修訂版,它使用 OFS 來輸出那些中間的 ", " 字串:

address.awk 的修訂版
BEGIN {
     FS="n"
     RS=""
    OFS=", "
}
{
    print $1, $2, $3
}
 awk 還有一個特殊變數 ORS,全稱是“輸出記錄分隔字元”。通過設定預設為換行 ("n") 的 OFS,我們可以控制在 print 語句結尾自動列印的字元。預設 ORS 值會使 awk 在新行中輸出每個新的 print 語句。如果想使輸出的間隔翻倍,可以將 ORS 設定成 "nn"。或者,如果想要用單個空格分隔記錄(而不換行),將 ORS 設定成 " "。

將多行轉換成用 tab 分隔的格式
假設我們編寫了一個指令碼,它將地址清單轉換成每個記錄一行,且用 tab 定界的格式,以便匯入試算表。使用稍加修改的 address.awk 之後,就可以清楚地看到這個程式只適合於三行的地址。如果 awk 遇到以下地址,將丟掉第四行,並且不列印該行:
Cousin Vinnie
Vinnie's Auto Shop
300 City Alley
Sosueme, OR 76543

要處理這種情況,代碼最好考慮每個欄位的記錄數量,並依次列印每個記錄。現在,代碼只列印地址的前三個欄位。以下就是我們想要的一些代碼:

適合具有任意多欄位的地址的 address.awk 版本
BEGIN {
  FS="n"
  RS=""
  ORS=""
}
 { 
 x=1
 while ( x<NF ) {
 print $x "t"
 x++
  }
print $NF "n"
}

首先,將欄位分隔符號 FS 設定成 "n",將記錄分隔字元 RS 設定成 "",這樣 awk 可以象以前一樣正確分析多行地址。然後,將輸出記錄分隔字元 ORS 設定成 "",它將使 print 語句在每個調用結尾不輸出新行。這意味著如果希望任何文本從新的一行開始,那麼需要明確寫入 print "n"。

在主代碼塊中,建立了一個變數 x 來儲存正在處理的當前欄位的編號。起初,它被設定成 1。然後,我們使用 while 迴圈(一種 awk 迴圈結構,等同於 C 語言中的 while 迴圈),對於所有記錄(最後一個記錄除外)重複列印記錄和 tab 字元。最後,列印最後一個記錄和換行;此外,由於將 ORS 設定成 "",print 將不輸出換行。程式輸出如下,這正是我們所期望的(不算漂亮,但用 tab 定界,以便於匯入試算表):
Jimmy the Weasel        100 Pleasant Drive      San Francisco, CA 12345
Big Tony        200 Incognito Ave.      Suburbia, WA 67890
Cousin Vinnie   Vinnie's Auto Shop      300 City Alley  Sosueme, OR 76543


當前1/2頁  12下一頁閱讀全文
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.