Python Show-Me-the-Code 第 0006 題 最重要的詞

來源:互聯網
上載者:User

標籤:python   Regex   文本   

第 0006 題:你有一個目錄,放了你一個月的日記,都是 txt,為了避免分詞的問題,假設內容都是英文,請統計出你認為每篇日記最重要的詞。

思路:切換到目標目錄,然後遍曆該目錄下的txt檔案,用Regex匹配響應的單詞和數字,然後讓Counter計算單詞的詞頻,並認為排除掉stop word後出現最多的詞是最重要的詞。

註:stopword就是類似 a/an/and/are/then 的這類高頻詞,高頻詞會對基於詞頻的算分公式產生極大的幹擾,所以需要過濾

部分代碼引用Show-Me-the-Code 第四題中的統計單詞代碼

0006.最重要的詞.py

#!/usr/bin/env python#coding: utf-8import re, osfrom collections import Counter# 目標檔案所在目錄FILE_PATH = ‘/home/bill/Desktop‘def getCounter(articlefilesource):    ‘‘‘輸入一個英文的純文字檔案,統計其中的單詞出現的個數‘‘‘    pattern = r‘‘‘[A-Za-z]+|\$?\d+%?$‘‘‘    with open(articlefilesource) as f:        r = re.findall(pattern, f.read())        return Counter(r)#過濾詞stop_word = [‘the‘, ‘in‘, ‘of‘, ‘and‘, ‘to‘, ‘has‘, ‘that‘, ‘s‘, ‘is‘, ‘are‘, ‘a‘, ‘with‘, ‘as‘, ‘an‘]def run(FILE_PATH):    # 切換到目標檔案所在目錄    os.chdir(FILE_PATH)    # 遍曆該目錄下的txt檔案    total_counter = Counter()    for i in os.listdir(os.getcwd()):        if os.path.splitext(i)[1] == ‘.txt‘:            total_counter += getCounter(i)    # 排除stopword的影響    for i in stop_word:        total_counter[i] = 0    print total_counter.most_common()[0][0]if __name__ == ‘__main__‘:    run(FILE_PATH)

隨便從BBC中國頻道 上選了幾篇新聞進行測試

輸出:

Python Show-Me-the-Code 第 0006 題 最重要的詞

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.