LINUX Shell 下求兩個檔案交集和差集的辦法

來源:互聯網
上載者:User

假設兩個檔案FILE1和FILE2用集合A和B表示,FILE1內容如下:

a<br />b<br />c<br />e<br />d<br />a

FILE2內容如下:

c<br />d<br />a<br />c

基本上有兩個方法,一個是comm命令,一個是grep命令。分別介紹如下:

 

comm命令
, Compare sorted files FILE1 and FILE2 line by line. With  no options, produce three-column output.  Column one contains lines unique to FILE1, column two contains lines unique to FILE2, and column three contains lines common to both files. 要注意兩個檔案必須是排序和唯一(sorted and unique)的,預設輸出為三列,第一列為是A-B,第二列B-A,第三列為A交B。

直接運行結果如下:

$ comm a.txt b.txt<br />a<br />b<br /> c<br /> d<br /> a<br /> c<br />e<br />d<br />a<br />

僅僅排序:

$ comm <(sort a.txt ) <(sort b.txt )<br /> a<br />a<br />b<br /> c<br /> c<br /> d<br />e<br />

排序並且唯一:

$ comm <(sort a.txt|uniq ) <(sort b.txt|uniq )<br /> a<br />b<br /> c<br /> d<br />e<br />

如果只想要交集,如下即可:

$ comm -12 <(sort a.txt|uniq ) <(sort b.txt|uniq )<br />a<br />c<br />d<br />

至於差集,讀者自己思考了。

 

grep
命令是常用的搜尋常值內容的,要找交集,如下即可:

p$ grep -F -f a.txt b.txt<br />c<br />d<br />a<br />c<br />

grep不要求排序,但是因為是集合操作,唯一是必須的(不然怎麼是集合呢?)。所以:

$ grep -F -f a.txt b.txt | sort | uniq<br />a<br />c<br />d<br />

差集呢?

$ grep -F -v -f a.txt b.txt | sort | uniq<br />$ grep -F -v -f b.txt a.txt | sort | uniq<br />b<br />e<br />

第一行結果為B-A,所以為空白;第二行為A-B。注意順序很重要!

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.