該進入第四章了,剛才看到一個文章標題:我空有一身泡妞的好本領,但可惜自己是個妞。汗~這個。。。音樂無國界嘛,這個不應該也沒性別界嗎?
第四章文本處理工具
書中先說明了以下排序的規則,數值的就不用說了,該大就大該小就小,但是字元型很多時候是區分聲調或者重音的。在命令列中輸入locale查看自己系統的編碼配置。預設的是系統配置裡的,但是可以自己設定排序的編碼。如:
複製代碼 代碼如下:
$ LC_ALL=C sort french-english #以傳統ASCII碼順序排序
下邊介紹以下排序命令sort:
文法: sort [ options ] [ file(s} ]
主要選項: -b 忽略開頭的空白
-c 檢查輸入是否已正確地排序。如果未排序,則退出碼為非零值,不會有任何輸出
-d 字典順序,僅文字數字和空白才有意義。
-g 一般數值:以浮點數字類型比較欄位。僅GNU版本提供此選項功能
-f 將混用的字母都看作相同大小寫,即忽略大小寫。
-i 忽略無法列印的字元。
-k 定義排序索引值欄位
-m 將已排序的輸入檔案,合并為一個排序後的輸出資料流
-n 以整數類型比較欄位
-o outfile 將輸出寫到指定檔案
-r 倒置排序由大到小,預設由小到大
-t char 使用單個字元char作為預設的欄位分隔符號取代空白字元
-u 只有唯一記錄,丟棄所有具有相同索引值的記錄只留第一條。
另外排序索引值欄位類型標識,即-k一個欄位之後的修飾符字母:
b 忽略開頭的空白
d 字典順序
f 不區分大小寫
g 以一般的浮點數進行比較,只適用GNU版本
i 忽略無法列印的字元
n 以整數數字比較
r 倒置排序次序
欄位以及欄位裡的字元是由1開始編號的。如果僅指定一個欄位編號,則排序索引值會自該欄位的起始處開始,一直繼續到記錄的結尾(而非欄位結尾)。
如果給的是一對用逗號隔開的欄位數字,則排序索引值將由第一個欄位值起開始,到第二個指定欄位結尾結束。可能出現多個-k,會從第一個開始。
例子:
複製代碼 代碼如下:
$ sort -t: -k1,1 /etc/passwd #以使用者名稱稱排序
$ sort -t: -k2nr /etc/passwd #反向UID的排序
$ sort -t: -k4n -k3n /etc/passwd $以GID與UID排序
關於sort的效率,搞演算法的都比較瞭解目前各種排序演算法的效率,這裡的sort也沒啥特別的,類似STL估計,組合排序演算法儘可能的最佳化過了。不是搞演算法的童鞋也不用瞭解了,相信它的效率就好了。
有時候我們還十分關心排序的穩定性,預設情況下是不穩定的,但是GNU實現了coreutils包彌補了不足,可以通過--stable選項來解決穩定性問題。(不懂穩定性的簡單說一下:意思就是排序索引值等同的時候需要以輸入順序來輸出,即排序不打亂輸入順序)
有時候我們還需要解決輸入資料的重複問題,sort -u能夠解決一些,但是它消除的操作依據的是匹配的索引值,而非匹配的記錄。uniq命令提供另一種過濾資料的方式:它常用於管道中,用來刪除已適用sort排序完成的重複記錄。uniq有3個好用的選項:-c 可在每個輸出行之前加上該行的重複次數。 -d選項則用於僅顯示重複的行。 -u僅顯示未重複的行。這裡需要注意一點,uniq處理資料前是需要sort對資料進行排序的!
另外我們處理大量這樣的資料的時候,我們需要重新格式化段落以方便我們使用或閱讀。這時候可以使用fmt命令,有兩個常用的選項:-s 僅切割較長的行,短行不會合并 ; -w n 則設定輸出行寬度為n個字元(預設75個左右)。要考慮fmt移植性的請另行查詢文檔。
這裡對可能使用到的統計行數、字數、字元數的wc命令做一個介紹,選項有-c 位元組數 -l行數 -w 字數 。預設情況下給出行數 字數 位元組數。
好了,處理了那麼多文本,我們可能要列印出來看看,unix裡支援的列印功能包括兩類不同的命令,但擁有相同的功能,商用的unix系統與GNU/linux通常兩種都支援,不過BSD系統僅支援Berkeley風格,POSIX則只定義了lp命令。
複製代碼 代碼如下:
Berkeley System V 用途
lpr lp 傳送檔案到列印佇列
lprm cancel 從列印佇列中刪除檔案
lpq lpstat 報告隊列狀態
兩套命令的例子:
複製代碼 代碼如下:
$ lpr -Plcb102 sample.ps #將PostScript檔案傳送給列印佇列lcb102
$ lpq -Plcb102 #查看列印佇列狀態
$ lprm -Plcb102 81352 #停止此進程!結束這個作業
然後是System V風格的:
複製代碼 代碼如下:
$ lp -d lcb102 sample.ps #傳送PostScript檔案到列印佇列lcb102
$ lpstat -t lcb102 #查看列印佇列
$ cancel lcb102-81355 #結束這個作業
有時需列印資料需要加上頁碼或者時間戳記,可以使用pr預先處理要列印的資料。
文法:pr [ options ] [ file(s) ]
主要選項:
-cn 產生n欄的輸出,可以簡化成-n
-f 在首頁之後的每一網頁標題前置一個ASCII分頁字元標題,(有的環境下是-F)
-h althdr 將網頁標題內的檔案名稱,改用字串althdr取代。
-ln 產生n行的頁面
-on 輸出位移n個空白
-t 不顯示標題
-wn 每行至多n個字元。以單欄輸出而言,如有需要會將較長的行切分繞回至另外一行;否則,在多欄輸出的情況下,會截去長的行以符合指定。範例:
pr -f -l60 -o10 -w65 file(s) | lp 。
還有其他列印工具,這裡說的比較簡單,有這方面需求可以再搜些文檔看看。
第五章管道的神奇魔力
在linux下的管理性檔案,大部分都是文字檔,可以直接編輯閱讀的,這些檔案大部分放在標準目錄:/etc下。我們寫shell指令碼的時候大部分時候都是在處理文本資訊,而管道是可以一直順序著連著使用的 如 .... | ... | ... 這樣,書中舉了個連著使用5個管道的處理passwd檔案的例子說很厲害,大致就是這樣。然後又寫了一個指令碼把文本轉化成HTML檔案。然後又弄了一個根據正則匹配的指令碼來協助玩文字解密遊戲。再然後通過管道計算出了各種莎士比亞基本的單詞出現頻率等。管道的神奇就不羅嗦了。
第六章變數、判斷、重複動作
有兩個相似命令提供變數的管理,一個是readonly,可以將變數設定為唯讀模式,就是成為符號常量。export用於修改或者列印環境變數。他們都由一個-p選項,意思是列印命令的名稱以及所有被匯出(唯讀)變數的名稱和值,這種方式可使得shell重新讀取輸出以便重建立立環境(唯讀設定)。
export -p可以顯示所有當前的環境變數,如果要從程式的環境中刪除變數,則要用env命令,也可以臨時的改變環境變數值:
env -i PATH=$PATH HOME=$HOME LC_ALL=C .....
-i選項用來初始化(initializes)環境變數的,也就是丟棄任何的繼承值,僅傳遞命令列上指定的變數給程式使用。
unset命令從執行中的shell中刪除變數和函數,預設情況下,它會解除變數設定,也可以加上-v完成:
unset full_name #刪除full_name變數
unset -v firest middle last #刪除多個變數
unset -f full_function #刪除函數
這裡我嘗試用unset刪除readonly變數,發現無法刪除。然後查詢了以下,發現常量聲明之後就無法更改包括刪除,只有登出當前shell。
有時候輸出某個變數時,希望串連別的字元,可以在變數名左右添加花括弧如:
echo _${myvar}_ #這樣會輸出myvar變數並在前後增加底線。
這樣叫做參數的展開。如果變數未定義,展開後是null。
還有一種替換運算子:
${varname:-word} #如果varname存在且非null,則返回其值,否則返回word。
${varname:=word} #如果varname存在且非null,則返回其值,否則設定它為word然後再返回其值。
${varname:?message} #如果varname存在且非null,則返回它的值,否則顯示varname:message,並退出當前的命令或指令碼,如果省略message會出現預設資訊parameter null or net set。
${varname:+word} #如果varname存在且非null,則返回word,否則返回null。
以上每個運算子內的冒號(:)都是可選的。如果省略冒號,則將每個定義中的“存在且非null”部分改為“存在”,也就是說,運算子僅用於測試變數是否存在。
還有模式比對運算子#:
${variable#pattern} #如果模式比對於變數值的開頭處,則刪除匹配的最短部分,並返回剩下的部分。
${variable##pattern} #如果模式比對於變數值的開頭處,則刪除匹配的最長部分,並返回剩下的部分。
${variable%pattern} #如果模式比對於變數的結尾處,則刪除匹配的最短部分,並返回剩下的部分。
${variable%%pattern} #如果模式比對於變數值的結尾處,則刪除匹配的最長部分,並返回剩下的部分。
最後,POSIX標準化字串長度運算子:${#variable}返回$variable值的字元長度。
學到這裡我們就可以結合之前用到的位置參數來進行一些指令碼程式的容錯處理了,比如:filename=${1:-/dev/tty} #如果參數1為空白則返回/dev/tty
之前我們沒有介紹如何訪問傳遞的參數的總數,這裡說明一下,用的是 $# 符合。比如:
複製代碼 代碼如下:
while [ $# !=0 ]
do
case $1 in
.... #處理第一個參數
esac
shift #移除第一個參數
done
另外還有$* ,$@ ,它們一次表示所有的命令列參數。這兩個參數可用來把命令列參數傳遞給指令碼或函數所執行的程式。
"$*" 表示將所有命令列參數視為單個字串,等同於”$1 $2 ..."。$IFS的第一個字元用來作為分隔字元,以分隔不同的值來建立字串。
“$@" 將所有命令列參數視為單獨的個體,也就是單獨字串。等同於"$1" "$2" ...。這是將參數傳遞給其他程式的最佳方式,因為它會保留所有內嵌在每個參數裡的任何空白。
shift命令是用來“截去(lops off)”來自列表的位置參數,由左開始。一旦執行shift,$1的初始值會永遠消失,取而代之的是$2的舊值。$2的值變成$3的舊值,以此類推。$#值則會逐次減一。以上幾個要多實驗,不再贅述。
類似的還有很多特殊變數:(所有引用特殊變數前邊加$符號)
# 目前進程的參數個數
@傳遞給當前進程的命令列參數。置於雙引號內,會展開為個別的參數。
* 當前進程的命令列參數。置於雙引號內,則展開為一單獨參數。
- 在引用時給予shell的選項。
? 前一個命令的退出狀態
$ shell進程的進程編號 process ID
0(零) shell程式的名稱
! 最近一個後台命令的進程編號
ENV 一旦引用,則僅用於互動式shell中。$ENV的值是可展開的參數。
HOME 根目錄
IFS 內部的欄位分隔器,想想awk吧。
LANG 當前locale的預設名稱;其他的LC_*變數會覆蓋其值
LC_ALL 當前locale的名稱,會覆蓋LANG與其他LC_*變數
LC_COLLATE 用來排序字元的當前locale名稱
LC_CTYPE 再模式比對期間,用來確定字元類別的當前locale的名稱
LC_MESSAGES 輸出資訊的當前語言的名稱
LINENO 剛執行過的行再指令碼或函數內的行編號
NLSPATH 再$LC_MESSAGES(XSI)所給定的資訊語言裡資訊目錄位置。
PATH 命令的尋找路徑
PPID 父進程的進程編號
PS1 主要的命令提示字串,預設為“$”
PS2 行繼續的提示字串,預設為"> "
PS4 以set -x設定的執行跟蹤的提示字串。預設為“+ ”。
PWD 當前工作目錄。
shell的算數運算子基本跟C語言一樣,想直接在命令列測試算數運算子的需要這樣加雙括弧:echo $(( 3&4 )) 之類的。
有一個要知道的地方,每一條命令,不管是內建的、shell函數,還是外部的,當它退出時,都會返回一個小的整數值給引用它的程式,這就是大家所熟悉的程式的退出狀態(exit statu)。在shell下執行進程時,有許多方式可取用程式的退出狀態。慣例來講,退出狀態為0表示成功執行完成,其他狀態都是失敗的。可以用ls命令執行對一次錯一次分別看看返回狀態是多少(上邊有講特殊變數 $? 可查看上一條命令的返回狀態)。
POSIX的結束狀態:
0 命令成功地退出
>0 在重新導向或單詞展開期間(~,變數,命令,算符展開,單詞切割)失敗。
1-125 命令不成功地退出,具體含義由各個單獨的命令定義。
126 命令找到了,但檔案無法執行。
127 命令找不到。
>128 命令因收到訊號而死亡。
令人好奇的是,POSIX留下退出狀態128未定義,僅要求它表示某種失敗。因為只有低位的8個位會返回給父進程,所以大於255的退出狀態都會替換成該值除以256之後的餘數。傳回值命令:exit value_number 。
關於判斷語句 if-then-elif-else-fi 語句給個文法不再贅述:
複製代碼 代碼如下:
if pipeline
[ pipeline ... ]
then
statements-if-true-1
[ elif pipeline
[ pipeline ... ]
then
statements-if-true-2 ... ]
[ else
statements-if-all-else-fails ]
fi
if判斷力你可以使用 !、&&、|| 等C語言裡的這些邏輯判斷符號。
這裡介紹一個test命令,它為了測試shell指令碼裡的條件,通過退出狀態返回其結果,它有第二種形式即 [...] ,單要注意的是方括弧根據字面意義逐字地輸入,且必須與括弧起來的expression以空白隔開。如:test "$str1" = "$str2" 等同於 [ "$str1" = "$str2" ] 。test有好多參數啊,好多。。。自己man吧(敢不敢把26個字母都用完?!!! TT)。這裡給出之前的finduser指令碼的改良版:
複製代碼 代碼如下:
#! /bin/sh
#finduser --- 尋找是否有第一個參數指定的使用者
if [ $# -ne 1 ]
then
echo Usage: finduser username >&2
exit 1
fi
who | grep $1
關於case語句,給出例子不再贅述,都十分雷同C語言的。
複製代碼 代碼如下:
case $1 in #測試$1
-f )
.... #針對-f選項的程式碼
;; ##類似break
-d | --directory ) #支援長選項
...
* ) #上邊都不匹配的預設選項,非必須
echo $1:unknow option >&2
exit 1
;; #也非必須
esac
關於for迴圈,給出一個執行個體:
複製代碼 代碼如下:
for i in atlbrochure*.xml
do
echo $i
mv $i $i.old
sed 's/Athlanta/&, the capital of the South/' < $i.old >$i
done
這個迴圈將每個原始檔案備份為副檔案名稱為.old的檔案,之後再使用sed處理檔案建立新檔案。同時有輸出檔案名,作為進度的一種提示。另外for迴圈裡的in列表(list)是可選的,如果省略則遍曆整個命令列參數,就好像輸入了 for i in "$@" 。
while和until迴圈也都類似,文法為:
複製代碼 代碼如下:
while condition
do
statements
done
until condition
do
statements
done
兩者不同之處在於如何對待condition的退出狀態,只要condition成功,while就繼續迴圈。只要condition不成功,until則一直迴圈。
在以上迴圈裡,你仍然可以使用break和continue,功能同C語言一樣。
shift之前提到過,它還可以接受一個選擇性參數,也就是要移動幾位。
針對參數的處理有一個getopts命令簡化了選項處理,它能理解POSIX選項中將多個選項字母組織到一起的用法,也可以用來遍曆整個命令列參數,一次一個參數。該命令會自動過濾掉參數裡的-,--等符號。如果得到不合法選項字母,該命令會返回一個?符號。
shell指令碼裡的函數,一般可以定義在程式的最前部,也可以放在另一個獨立檔案裡,並且以點號(.)命令來取用(source)它們。給出一個簡單一實例:
複製代碼 代碼如下:
# wait_for_user user [ sleeptime ]
#
#文法:wait_for_user user [ sleeptime ]
wait_for_user () {
until who | grep "$1" > /dev/null
do
sleep ${2:-30}
done
}
調用直接 wait_for_user admin ,還可以接受第二個等待時間參數。在shell函數裡,return與exit工作方式相同,可返回一個值,但是需要注意的是在shell函數裡使用exit會終止整個shell命令。