linux 中對比兩個檔案的不同方法,linux對比兩個檔案
最近在寫一個對比/etc/dhcpd檔案的配置IP和arp -n擷取的IP比對的指令碼。這就要找出兩個輸出檔案之間的差別——即在檔案1中有而在檔案2中沒有部分,或者在檔案2中有而在檔案1中沒有的部分。實現該功能,網上常見的有四種方法,不過在實際測試中發現有一種方法的結果是不準確的。即實際上有三種常見方法可以實現。
方法一:comm命令實現
comm命令的參數
-1 不顯示只在第1個檔案裡出現過的列。-2 不顯示只在第2個檔案裡出現過的列。-3 不顯示只在第1和第2個檔案裡出現過的列。
comm命令是一個非常簡潔的命令,其只有兩個參數。不過三個參數也結常要組合使用,我們常用的用法如下:
comm - 12 就只顯示在兩個檔案中都存在的行;comm - 23 只顯示在第一個檔案中出現而未在第二個檔案中出現的行;comm - 123 則什麼也不顯示。
comm找出檔案2中有,檔案1中沒有的行:
cat /etc/dhcpd.conf|grep "fixed-address"|grep -v ^#|awk '{print $NF}'|sed 's/;//g'|sort > /tmp/1.txtarp -n|grep ether|grep -v eth0|awk '{ print $1}'|sort >/tmp/2.txtcomm -23 2.txt 1.txt
註:兩個檔案的內容在比較前,一定要進行sort排序。不然輸出的結果將是錯誤的。
方法二:diff命令比較
diff命令是一個比較經典的文本比較工具了,diff命令較comm的參數要多。其經常和patch命令組合使用,進行補丁升級。其預設使用的是-a參數,即逐行比較兩個檔案之間的不同。此處我們要實現想要得到的結果,還需要配合grep和awk實用:
diff 2.txt 1.txt |grep "<"|awk ' $1 = " " '
註:此處也發現,在使用diff命令進行比較時,也需要預先對經比較的檔案進行sort排序,不然輸出的結果同樣是不正確的。
方法三:awk實現
awk應該算是shell常用命令中的泰山北鬥了,幾乎很多其他命令能完成的工作,awk都能完成(只不過有些寫起來可能比較複雜)。本例中也不例外:
awk 'NR==FNR{a[$0]++} NR>FNR&&!a[$0]' 1.txt 2.txt
找出兩個檔案之間的相同部分可以使用
awk 'NR==FNR{a[$0]++} NR>FNR&&a[$0]' 1.txt 2.txt
下面的兩個語句也可以換成:
awk 'NR==FNR{a[$0]}NR>FNR{ if(!($1 in a)) print $0}' file1 file2 找出檔案2中不同的值awk 'NR==FNR{a[$0]}NR>FNR{ if($1 in a) print $0}' file1 file2 找出兩檔案中相同的值
註:
1、awk實現時,並不需要事先對兩個檔案進行sort排序,
2、注意和上兩個命令中兩個檔案的放置順序是不同的。三種實現方法,檔案的順序一定顛倒,顛倒了,效果就剛好想反了,就變成找出檔案1中有檔案2中沒有的行了。
方法四:grep誤人子弟法
網上另外流傳一個錯誤的方法,即通過grep命令實現:
grep -v -f 1.txt 2.txt
經測試,無論我事先是否對兩個檔案進行sort倒序,此方法輸出的結果,發現都是不正確的。也許grep也能實現該需求,只不過我使用的參數有問題。不過,如果有人能通過grep直接實現,還請不吝告知