統計特定檔案中的詞頻

來源:互聯網
上載者:User

統計特定檔案中的詞頻 尋找檔案中使用的單詞的頻率是一件很有意思的事情,下面,我們利用 關聯陣列,awk,sed,grep 等不同的方式來解決問題。首先,我們需要一個測試用的文本,儲存名為  word.txt內容如下:[python] Word used  this  counting  this   接下來需要編寫Shell指令碼程式,如下所示:[python] #!/bin/bash  #Name: word_freq.sh  #Description: Find out frequency of words in a file    if [ $# -ne 1 ];  then      echo "Usage: $0 filename";      exit -1  fi    filename=$1    egrep -o "\b[[:alpha:]]+\b" $filename | \    awk '{ count[$0]++ } END{ printf("%-14s%s\n","Word","Count") ; \   for(ind in count) { printf("%-14s%d\n",ind,count[ind]); } }'    工作原理介紹:1.egrep -o "\b[[:alpha:]]+\b" $filename 用來只輸出單詞,用 -o 選項列印出由分行符號分割的匹配字元序列,這樣我們就可以在每行中列出一個單詞2.\b 是單詞邊界標記符。[:alpha:] 是表示字母的字元類3.awk命令用來避免對每一個單詞進行迭代 下面給出啟動並執行: 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.