標籤:python Regex 文本
第 0006 題:你有一個目錄,放了你一個月的日記,都是 txt,為了避免分詞的問題,假設內容都是英文,請統計出你認為每篇日記最重要的詞。
思路:切換到目標目錄,然後遍曆該目錄下的txt檔案,用Regex匹配響應的單詞和數字,然後讓Counter計算單詞的詞頻,並認為排除掉stop word後出現最多的詞是最重要的詞。
註:stopword就是類似 a/an/and/are/then 的這類高頻詞,高頻詞會對基於詞頻的算分公式產生極大的幹擾,所以需要過濾
部分代碼引用Show-Me-the-Code 第四題中的統計單詞代碼
0006.最重要的詞.py
#!/usr/bin/env python#coding: utf-8import re, osfrom collections import Counter# 目標檔案所在目錄FILE_PATH = ‘/home/bill/Desktop‘def getCounter(articlefilesource): ‘‘‘輸入一個英文的純文字檔案,統計其中的單詞出現的個數‘‘‘ pattern = r‘‘‘[A-Za-z]+|\$?\d+%?$‘‘‘ with open(articlefilesource) as f: r = re.findall(pattern, f.read()) return Counter(r)#過濾詞stop_word = [‘the‘, ‘in‘, ‘of‘, ‘and‘, ‘to‘, ‘has‘, ‘that‘, ‘s‘, ‘is‘, ‘are‘, ‘a‘, ‘with‘, ‘as‘, ‘an‘]def run(FILE_PATH): # 切換到目標檔案所在目錄 os.chdir(FILE_PATH) # 遍曆該目錄下的txt檔案 total_counter = Counter() for i in os.listdir(os.getcwd()): if os.path.splitext(i)[1] == ‘.txt‘: total_counter += getCounter(i) # 排除stopword的影響 for i in stop_word: total_counter[i] = 0 print total_counter.most_common()[0][0]if __name__ == ‘__main__‘: run(FILE_PATH)
隨便從BBC中國頻道 上選了幾篇新聞進行測試
輸出:
Python Show-Me-the-Code 第 0006 題 最重要的詞