內容目錄: find 檔案尋找 grep 文本搜尋 xargs 命令列參數轉換 sort 排序 uniq 消除重複行 用tr進行轉換 cut 按列切分文本 paste 按列拼接文本 wc 統計行和字元的工具 sed 文本替換利器 awk 資料流處理工具 迭代檔案中的行、單詞和字元
本文將介紹Linux下使用Shell處理文本時最常用的工具:
find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk;
提供的例子和參數都是最常用和最為實用的;
我對shell指令碼使用的原則是命令單行書寫,盡量不要超過2行;
如果有更為複雜的任務需求,還是考慮python吧; find 檔案尋找
尋找txt和pdf檔案
find . \( -name "*.txt" -o -name "*.pdf" \) -print
正則方式尋找.txt和pdf
find . -regex ".*\(\.txt|\.pdf\)$"
-iregex: 忽略大小寫正則
否定參數
尋找所有非txt文本
find . ! -name "*.txt" -print
指定搜尋深度
列印出目前的目錄的檔案(深度為1)
find . -maxdepth 1 -type f
定製搜尋
按類型搜尋:
find . -type d -print //只列出所有目錄
-type f 檔案 / l 符號連結
按時間搜尋:
-atime 訪問時間 (單位是天,分鐘單位則是-amin,以下類似)
-mtime 修改時間 (內容被修改)
-ctime 變化時間 (中繼資料或許可權變化)
最近7天被訪問過的所有檔案:
find . -atime 7 -type f -print
按大小搜尋:
w字 k M G
尋找大於2k的檔案
find . -type f -size +2k
按許可權尋找:
find . -type f -perm 644 -print //找具有可執行許可權的所有檔案
按使用者尋找:
find . -type f -user weber -print// 找使用者weber所擁有的檔案
找到後的後續動作
刪除:
刪除目前的目錄下所有的swp檔案:
find . -type f -name "*.swp" -delete
執行動作(強大的exec)
find . -type f -user root -exec chown weber {} \; //將目前的目錄下的所有權變更為weber
註:{}是一個特殊的字串,對於每一個匹配的檔案,{}會被替換成相應的檔案名稱;
eg:將找到的檔案全都copy到另一個目錄:
find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD \;
結合多個命令
tips: 如果需要後續執行多個命令,可以將多個命令寫成一個指令碼。然後 -exec 調用時執行指令碼即可;
-exec ./commands.sh {} \;
-print的定界符
預設使用'\n'作為檔案的定界符;
-print0 使用'\0'作為檔案的定界符,這樣就可以搜尋包含空格的檔案; grep 文本搜尋
grep match_patten file // 預設訪問匹配行
常用參數
-o 只輸出匹配的文本行 VS -v 只輸出沒有匹配的文本行
-c 統計檔案中包含文本的次數
grep -c "text" filename
-n 列印匹配的行號
-i 搜尋時忽略大小寫
-l 只列印檔案名
在多級目錄中對文本遞迴搜尋(程式員搜代碼的最愛):
grep "class" . -R -n
匹配多個模式
grep -e "class" -e "vitural" file
grep輸出以\0作為結尾符的檔案名稱:(-z)
grep "test" file* -lZ| xargs -0 rm
xargs 命令列參數轉換
xargs 能夠將輸入資料轉化為特定命令的命令列參數;這樣,可以配合很多命令來組合使用。比如grep,比如find;
將多行輸出轉化為單行輸出
cat file.txt| xargs
\n 是多行文本間的定界符
將單行轉化為多行輸出
cat single.txt | xargs -n 3
-n:指定每行顯示的欄位數 xargs參數說明
-d 定義定界符 (預設為空白格 多行的定界符為 \n)
-n 指定輸出為多行
-I {} 指定替換字串,這個字串在xargs擴充時會被替換掉,用於待執行的命令需要多個參數時
eg:
cat file.txt | xargs -I {} ./command.sh -p {} -1
-0:指定\0為輸入定界符
eg:統計程式行數
find source_dir