[shell]資料的並集和差集

來源:互聯網
上載者:User

[shell]資料的並集和差集

統計資料時經常會有這樣的要求,有檔案A和檔案B。現在需要知道檔案中的資料,那些是A和B共有的,那些只出現在A檔案中(或者那些只出現在B檔案中)。這樣的需求可以通過uniq命令完成。

uniq -d 會輸出重複行

uniq -u 只顯示唯一的行

利用uniq sort 略施小計就能搞定了

例如 檔案A

100101102100
檔案B
103102102 

指令碼如下

cat A | sort | uniq >tmpA #A資料集祛重cat B | sort | uniq > tmpB #B資料集祛重cat tmpA tmpB | sort | uniq -d  #A和B的交集cat tmpA tmpB tmpB| sort | uniq -u #A中有而B中沒有的資料(A-B)

說明,交集和差集是計算原理是什麼呢?其實逐步執行一下就清楚了。

cat A | sort | uniq >tmpA ;cat  tmpA100101102cat B | sort | uniq >tmpB ;cat  tmpB102103
然後用cat tmpA tmpB 合并兩個檔案
cat tmpA tmpB100101102102103

最後,用uniq找出檔案中的重複行,就是A和B的交集了

cat tmpA tmpB | sort | uniq -d102
至於求差集,原理是類似的。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.