中文分詞的python實現-基於HMM演算法

最後更新：2018-07-28 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

隱馬爾科夫模型（HMM） 模型介紹

HMM模型是由一個“五元組”組成: StatusSet: 狀態值集合 ObservedSet: 觀察值集合 TransProbMatrix: 轉移機率矩陣 EmitProbMatrix: 發射機率矩陣 InitStatus: 初始狀態分布

將HMM應用在分詞上，要解決的問題是：參數(ObservedSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情況下，求解狀態值序列。解決這個問題的最有名的方法是viterbi演算法。 參數介紹 StatusSet，狀態值集合為(B, M, E, S): {B:begin, M:middle, E:end, S:single}。分別代表每個狀態代表的是該字在詞語中的位置，B代表該字是詞語中的起始字，M代表是詞語中的中間字，E代表是詞語中的結束字，S則代表是單字成詞。 ObservedSet，觀察值集合就是所有漢字，甚至包括標點符號所組成的集合。 TransProbMatrix，狀態轉移機率矩陣的含義就是從狀態X轉移到狀態Y的機率，是一個4×4的矩陣，即{B,E,M,S}×{B,E,M,S}。 EmitProbMatrix，發射機率矩陣的每個元素都是一個條件機率，代表P(Observed[i]|Status[j]) InitStatus，初始狀態機率分布表示句子的第一個字屬於{B,E,M,S}這四種狀態的機率。 Viterbi演算法

Viterbi演算法的核心思想就是動態規劃實現最短路徑，按照Michael Collins教的，核心思想是：
Define a dynamic programming table π(k,u,v),
π(k,u,v) = maximum probability of a tag sequence ending in tags u,v at position k.
For any k ∈ {1…n}: π(k,u,v) = max ( π(k-1,w,u) × q(v|w,u) × e(xk|v) )
完整的Viterbi演算法網上有很多資料可以查看，本文主要關注代碼的實現。實驗 代碼1：模型訓練

產生三個檔案：
- prob_start.py 為初始狀態機率
- prob_trans.py 為狀態轉移機率
- prob_emit.py 為發射機率

# -*- coding: utf-8 -*-# 二元隱馬爾科夫模型（Bigram HMMs）# 'trainCorpus.txt_utf8'為人民日報已經人工分詞的預料，29萬多條句子import sys#state_M = 4#word_N = 0A_dic = {}B_dic = {}Count_dic = {}Pi_dic = {}word_set = set()state_list = ['B','M','E','S']line_num = -1INPUT_DATA = "trainCorpus.txt_utf8"PROB_START = "trainHMM\prob_start.py"   #初始狀態機率PROB_EMIT = "trainHMM\prob_emit.py"     #發射機率PROB_TRANS = "trainHMM\prob_trans.py"   #轉移機率def init():  #初始化字典    #global state_M    #global word_N    for state in state_list:        A_dic[state] = {}        for state1 in state_list:            A_dic[state][state1] = 0.0    for state in state_list:        Pi_dic[state] = 0.0        B_dic[state] = {}        Count_dic[state] = 0def getList(input_str):  #輸入詞語，輸出狀態    outpout_str = []    if len(input_str) == 1:        outpout_str.append('S')    elif len(input_str) == 2:        outpout_str = ['B','E']    else:        M_num = len(input_str) -2        M_list = ['M'] * M_num        outpout_str.append('B')        outpout_str.extend(M_list)  #把M_list中的'M'分別添加進去        outpout_str.append('E')    return outpout_strdef Output():   #輸出模型的三個參數：初始機率+轉移機率+發射機率    start_fp = file(PROB_START,'w')    emit_fp = file(PROB_EMIT,'w')    trans_fp = file(PROB_TRANS,'w')    print "len(word_set) = %s " % (len(word_set))    for key in Pi_dic:           #狀態的初始機率        Pi_dic[key] = Pi_dic[key] * 1.0 / line_num    print >>start_fp,Pi_dic    for key in A_dic:            #狀態轉移機率        for key1 in A_dic[key]:            A_dic[key][key1] = A_dic[key][key1] / Count_dic[key]    print >>trans_fp,A_dic    for key in B_dic:            #發射機率(狀態->詞語的條件機率)        for word in B_dic[key]:            B_dic[key][word] = B_dic[key][word] / Count_dic[key]    print >>emit_fp,B_dic    start_fp.close()    emit_fp.close()    trans_fp.close()def main():    ifp = file(INPUT_DATA)    init()    global word_set   #初始是set()    global line_num   #初始是-1    for line in ifp:        line_num += 1        if line_num % 10000 == 0:            print line_num        line = line.strip()        if not line:continue        line = line.decode("utf-8","ignore")  #設定為ignore，會忽略非法字元        word_list = []        for i in range(len(line)):            if line[i] == " ":continue            word_list.append(line[i])        word_set = word_set | set(word_list)   #訓練預料庫中所有字的集合        lineArr = line.split(" ")        line_state = []        for item in lineArr:            line_state.extend(getList(item))   #一句話對應一行連續的狀態        if len(word_list) != len(line_state):            print >> sys.stderr,"[line_num = %d][line = %s]" % (line_num, line.endoce("utf-8",'ignore'))        else:            for i in range(len(line_state)):                if i == 0:                    Pi_dic[line_state[0]] += 1      #Pi_dic記錄句子第一個字的狀態，用於計算初始狀態機率                    Count_dic[line_state[0]] += 1   #記錄每一個狀態的出現次數                else:                    A_dic[line_state[i-1]][line_state[i]] += 1    #用於計算轉移機率                    Count_dic[line_state[i]] += 1                    if not B_dic[line_state[i]].has_key(word_list[i]):                        B_dic[line_state[i]][word_list[i]] = 0.0                    else:                        B_dic[line_state[i]][word_list[i]] += 1   #用於計算髮射機率    Output()    ifp.close()if __name__ == "__main__":    main()

代碼2：測試分詞效果

# -*- coding: utf-8 -*-def load_model(f_name):    ifp = file(f_name, 'rb')    return eval(ifp.read())  #eval參數是一個字串, 可以把這個字串當成運算式來求值,prob_start = load_model("trainHMM\prob_start.py")prob_trans = load_model("trainHMM\prob_trans.py")prob_emit = load_model("trainHMM\prob_emit.py")def viterbi(obs, states, start_p, trans_p, emit_p):  #維特比演算法（一種遞迴演算法）    V = [{}]    path = {}    for y in states:   #初始值        V[0][y] = start_p[y] * emit_p[y].get(obs[0],0)   #在位置0，以y狀態為末尾的狀態序列的最大機率        path[y] = [y]    for t in range(1,len(obs)):        V.append({})        newpath = {}        for y in states:      #從y0 -> y狀態的遞迴            (prob, state) = max([(V[t-1][y0] * trans_p[y0].get(y,0) * emit_p[y].get(obs[t],0) ,y0) for y0 in states if V[t-1][y0]>0])            V[t][y] =prob            newpath[y] = path[state] + [y]        path = newpath  #選項組序列    (prob, state) = max([(V[len(obs) - 1][y], y) for y in states])  #在最後一個位置，以y狀態為末尾的狀態序列的最大機率    return (prob, path[state])  #返回機率和狀態序列def cut(sentence):    prob, pos_list =  viterbi(sentence,('B','M','E','S'), prob_start, prob_trans, prob_emit)    return (prob,pos_list)if __name__ == "__main__":    test_str = u"新華網駐東京記者報道"    prob,pos_list = cut(test_str)    print test_str    print pos_list

結果

新華網駐東京記者報道['B', 'M', 'E', 'S', 'B', 'E', 'B', 'E', 'B', 'E']

人工分詞的預料（trainCorpus.txt_utf8）可以從此處下載。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

中文分詞的python實現-基於HMM演算法

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support