中文分詞--最大正向匹配演算法python實現

來源:互聯網
上載者:User

標籤:def   app   讀取文本   寫入   訓練   content   read   coding   bre   

最大匹配法:最大匹配是指以詞典為依據,取詞典中最長單詞為第一個次取字數量的掃描串,在詞典中進行掃描(為提升掃描效率,還可以跟據字數多少設計多個字典,然後根據字數分別從不同字典中進行掃描)。例如:詞典中最長詞為“中華人民共和國”共7個漢字,則最大匹配起始字數為7個漢字。然後逐字遞減,在對應的詞典中進行尋找。

下面以“我們在野生動物園玩”為例詳細說明一下正向與逆向最大匹配方法:

1、正向最大匹配法:

正向即從前往後取詞,從7->1,每次減一個字,直到詞典命中或剩下1個單字。

第1次:“我們在野生動物”,掃描7字詞典,無

第2次:“我們在野生動”,掃描6字詞典,無

。。。。

第6次:“我們”,掃描2字詞典,有

掃描中止,輸出第1個詞為“我們”,去除第1個詞後開始第2輪掃描,即:

第2輪掃描:

第1次:“在野生動物園玩”,掃描7字詞典,無

第2次:“在野生動物園”,掃描6字詞典,無

。。。。

第6次:“在野”,掃描2字詞典,有

掃描中止,輸出第2個詞為“在野”,去除第2個詞後開始第3輪掃描,即:

第3輪掃描:

第1次:“生動物園玩”,掃描5字詞典,無

第2次:“生動物園”,掃描4字詞典,無

第3次:“生動物”,掃描3字詞典,無

第4次:“生動”,掃描2字詞典,有

掃描中止,輸出第3個詞為“生動”,第4輪掃描,即:

第4輪掃描:

第1次:“物園玩”,掃描3字詞典,無

第2次:“物園”,掃描2字詞典,無

第3次:“物”,掃描1字詞典,無

掃描中止,輸出第4個詞為“物”,非字典詞數加1,開始第5輪掃描,即:

第5輪掃描:

第1次:“園玩”,掃描2字詞典,無

第2次:“園”,掃描1字詞典,有

掃描中止,輸出第5個詞為“園”,單字字典詞數加1,開始第6輪掃描,即:

第6輪掃描:

第1次:“玩”,掃描1字字典詞,有

掃描中止,輸出第6個詞為“玩”,單字字典詞數加1,整體掃描結束。

正向最大匹配法,最終切分結果為:“我們/在野/生動/物/園/玩”

2、python代碼實現

 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Thu Jul 19 08:57:56 2018 4  5 @author: Lenovo 6 """ 7  8 test_file = ‘train/train.txt‘#訓練語料 9 test_file2 = ‘test/test.txt‘#測試語料10 test_file3 = ‘test_sc/test_sc_zhengxiang.txt‘#產生結果11 12 def get_dic(test_file): #讀取文本返回列表13     with open(test_file,‘r‘,encoding=‘utf-8‘,) as f:14         try:15             file_content = f.read().split()16         finally:17             f.close()18     chars = list(set(file_content))19     return chars20 21 dic = get_dic(test_file)           22 def readfile(test_file2):23     max_length = 5 24     25     h = open(test_file3,‘w‘,encoding=‘utf-8‘,) 26     with open(test_file2,‘r‘,encoding=‘utf-8‘,) as f:27         lines = f.readlines()28 29     for line in lines:#分別對每行進行正向最大匹配處理30         max_length = 5 31         my_list = []32         len_hang = len(line)33         while len_hang>0 :34             tryWord = line[0:max_length]35             while tryWord not in dic:36                 if len(tryWord)==1:37                     break38                 tryWord=tryWord[0:len(tryWord)-1]39             my_list.append(tryWord)40             line = line[len(tryWord):]41             len_hang = len(line)42         43         for t in my_list:#將分詞結果寫入組建檔案44             if t == ‘\n‘ :45                 h.write(‘\n‘)46             else:47                 h.write(t + "  ")48     49     h.close()50         51 readfile(test_file2)

3、訓練語料和測試語料見附件。

中文分詞--最大正向匹配演算法python實現

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.