主要介紹Shell逐行讀取檔案的4種方法:while迴圈法、重新導向法、管道法、檔案描述符法。
方法1:while迴圈中執行效率最高,最常用的方法。
代碼如下:
function while_read_LINE_bottm(){
while read LINE
do
echo $LINE
done < $FILENAME
}
注釋:我習慣把這種方式叫做read釜底抽薪,因為這種方式在結束的時候需要執行檔案,就好像是執行完的時候再把檔案讀進去一樣。
方法2 : 重新導向法;管道法: cat $FILENAME | while read LINE
代碼如下:
Function While_read_LINE(){
cat $FILENAME | while read LINE
do
echo $LINE
done
}
注釋:我只所有把這種方式叫做管道法,相比大家應該可以看出來了吧。當遇見管道的時候管道左邊的命令的輸出會作為管道右邊命令的輸入然後被輸入出來。
方法3: 檔案描述符法
代碼如下:
Function while_read_line_fd(){
Exec 3<&0
Exec 0<$FILENAME
While read LINE
Do
Echo $LINE
Exec 0<&<3
}
注釋: 這種方法分2步驟,第一,通過將所有內容重新導向到檔案描述符3來關閉檔案描述符0.為此我們用了文法Exec 3<&0 。第二部將輸入檔案放送到檔案描述符0,即標準輸入。
方法4 for 迴圈。
代碼如下:
function for_in_file(){
For line in `cat $FILENAME`
do
echo $line
done
}
注釋:這種方式是通過for迴圈的方式來讀取檔案的內容相比大家很熟悉了,這裡不多說。對各個方法進行測試,看那方法的執行效率最高。
while逐行讀的方法與for迴圈逐行讀的方法是不同的,例如:
$ cat file
1111
2222
3333 4444 555
$ cat file | while read line; do echo $line; done
1111
2222
3333 4444 555
$ for line in $(<file); do echo $line; done
1111
2222
3333
4444
555
測試案例:
首先我們用指令碼(指令碼見附件)產生一個70000行的檔案,檔案位置在/scripts/bigfile。然後通過下面的指令碼來測試各個方法的執行效率,指令碼很簡單,不再解釋。
代碼如下:
#!/bin/bash
FILENAME="$1"
TIMEFILE="/tmp/loopfile.out" > $TIMEFILE
SCRIPT=$(basename $0)
function usage(){
echo -e "\nUSAGE: $SCRIPT file \n"
exit 1
}
function while_read_bottm(){
while read LINE
do
echo $LINE
done < $FILENAME
}
function while_read_line(){
cat $FILENAME | while read LINE
do
echo $LINE
done
}
function while_read_line_fd(){
exec 3<&0
exec 0< $FILENAME
while read LINE
do
echo $LINE
done
exec 0<&3
}
function for_in_file(){
for i in `cat $FILENAME`
do
echo $i
done
}
if [ $# -lt 1 ] ; then
usage
fi
echo -e " \n starting file processing of each method\n"
echo -e "method 1:"
echo -e "function while_read_bottm"
time while_read_bottm >> $TIMEFILE
echo -e "\n"
echo -e "method 2:"
echo -e "function while_read_line "
time while_read_line >> $TIMEFILE
echo -e "\n"
echo -e "method 3:"
echo "function while_read_line_fd"
time while_read_line_fd >>$TIMEFILE
echo -e "\n"
echo -e "method 4:"
echo -e "function for_in_file"
time for_in_file >> $TIMEFILE
執行指令碼: ./while /scripts/bigfile
指令碼輸出內容如下:
method 1:
function while_read_bottm
real 0m5.689s
user 0m3.399s
sys 0m1.588s
method 2:
function while_read_line
real 0m11.612s
user 0m4.031s
sys 0m4.956s
method 3:
function while_read_line_fd
real 0m5.853s
user 0m3.536s
sys 0m1.469s
method 4:
function for_in_file
real 0m5.153s
user 0m3.335s
sys 0m1.593s
下面我們對各個方法按照速度進行排序。
代碼如下:
real 0m5.153s method 4 (for 迴圈法)
real 0m5.689s method 1 (while 釜底抽薪法)
real 0m5.853s method 3 (標識符法)
real 0m11.612s method 2 (管道法)
由此可見在各個方法中,for語句效率最高,而在while迴圈中讀寫檔案時,
while read LINE
do
echo $LINE
done < $FILENAME
方式執行效率最高。
還有一篇文章可以參考:http://blog.itpub.net/22664653/viewspace-1175858/