在百度nlp實習一個月時間裡用到的shell操作

來源:互聯網
上載者:User

標籤:檔案   資料   for   ar   時間   file   c   user   

文本行中各列打亂:

awk ‘BEGIN{srand()}{for(i=1;i<=NF;i++) b[rand()NF]=$i}END{for(x in b)printf "%s ",b[x]}‘` data

 

文本行中各行打亂:

awk ‘BEGIN{srand()}{b[rand()NR]=$0}END{for(x in b)print b[x]}‘ data

shuf -n1000 data

 

以a.txt作為pattern尋找b.txt,實際是求2者交集:

grep -F -x -f a.txt b.txt 

 

以a.txt作為pattern尋找b.txt,顯示不在a.txt中的資料,實際是求差集b-a:

grep -F -v -x -f a.txt b.txt 

 

編碼轉換:

iconv -f gb18030 -t utf8 filename 

 

以_為分隔字元,第二列為索引值排序,穩定排序(預設不穩定):

sort -t_ -k1,2  -s  filename

 

對大檔案進行外部排序並去重,以temp目錄作為緩衝:

sort -u -T temp filename

 

sort filename | uniq   -c計數唯一的排序的記錄 -d僅僅顯示重複的記錄 -u僅僅顯示沒有重複的記錄

 

在preview中開啟awk的man文檔:

man -t awk | open -a Preview -f  

 

awk和cut簡單用法:

awk -F: -v ‘OFS=\t‘ ‘{print "all users are:",$1,$2,$3,$4,$5,$6,$7}‘ /etc/passwd | cut -f 1,6

 

wc -l 行數 -c位元組數 -w字數

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.