隱馬爾科夫模型(HMM)
模型介紹
HMM模型是由一個“五元組”組成: StatusSet: 狀態值集合 ObservedSet: 觀察值集合 TransProbMatrix: 轉移機率矩陣 EmitProbMatrix: 發射機率矩陣 InitStatus: 初始狀態分布
將HMM應用在分詞上,要解決的問題是:參數(ObservedSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情況下,求解狀態值序列。解決這個問題的最有名的方法是viterbi演算法。 參數介紹 StatusSet,狀態值集合為(B, M, E, S): {B:begin, M:middle, E:end, S:single}。分別代表每個狀態代表的是該字在詞語中的位置,B代表該字是詞語中的起始字,M代表是詞語中的中間字,E代表是詞語中的結束字,S則代表是單字成詞。 ObservedSet,觀察值集合就是所有漢字,甚至包括標點符號所組成的集合。 TransProbMatrix,狀態轉移機率矩陣的含義就是從狀態X轉移到狀態Y的機率,是一個4×4的矩陣,即{B,E,M,S}×{B,E,M,S}。 EmitProbMatrix,發射機率矩陣的每個元素都是一個條件機率,代表P(Observed[i]|Status[j]) InitStatus,初始狀態機率分布表示句子的第一個字屬於{B,E,M,S}這四種狀態的機率。 Viterbi演算法
Viterbi演算法的核心思想就是動態規劃實現最短路徑,按照Michael Collins教的,核心思想是:
Define a dynamic programming table π(k,u,v),
π(k,u,v) = maximum probability of a tag sequence ending in tags u,v at position k.
For any k ∈ {1…n}: π(k,u,v) = max ( π(k-1,w,u) × q(v|w,u) × e(xk|v) )
完整的Viterbi演算法網上有很多資料可以查看,本文主要關注代碼的實現。 實驗 代碼1:模型訓練
產生三個檔案:
- prob_start.py 為初始狀態機率
- prob_trans.py 為狀態轉移機率
- prob_emit.py 為發射機率
# -*- coding: utf-8 -*-# 二元隱馬爾科夫模型(Bigram HMMs)# 'trainCorpus.txt_utf8'為人民日報已經人工分詞的預料,29萬多條句子import sys#state_M = 4#word_N = 0A_dic = {}B_dic = {}Count_dic = {}Pi_dic = {}word_set = set()state_list = ['B','M','E','S']line_num = -1INPUT_DATA = "trainCorpus.txt_utf8"PROB_START = "trainHMM\prob_start.py" #初始狀態機率PROB_EMIT = "trainHMM\prob_emit.py" #發射機率PROB_TRANS = "trainHMM\prob_trans.py" #轉移機率def init(): #初始化字典 #global state_M #global word_N for state in state_list: A_dic[state] = {} for state1 in state_list: A_dic[state][state1] = 0.0 for state in state_list: Pi_dic[state] = 0.0 B_dic[state] = {} Count_dic[state] = 0def getList(input_str): #輸入詞語,輸出狀態 outpout_str = [] if len(input_str) == 1: outpout_str.append('S') elif len(input_str) == 2: outpout_str = ['B','E'] else: M_num = len(input_str) -2 M_list = ['M'] * M_num outpout_str.append('B') outpout_str.extend(M_list) #把M_list中的'M'分別添加進去 outpout_str.append('E') return outpout_strdef Output(): #輸出模型的三個參數:初始機率+轉移機率+發射機率 start_fp = file(PROB_START,'w') emit_fp = file(PROB_EMIT,'w') trans_fp = file(PROB_TRANS,'w') print "len(word_set) = %s " % (len(word_set)) for key in Pi_dic: #狀態的初始機率 Pi_dic[key] = Pi_dic[key] * 1.0 / line_num print >>start_fp,Pi_dic for key in A_dic: #狀態轉移機率 for key1 in A_dic[key]: A_dic[key][key1] = A_dic[key][key1] / Count_dic[key] print >>trans_fp,A_dic for key in B_dic: #發射機率(狀態->詞語的條件機率) for word in B_dic[key]: B_dic[key][word] = B_dic[key][word] / Count_dic[key] print >>emit_fp,B_dic start_fp.close() emit_fp.close() trans_fp.close()def main(): ifp = file(INPUT_DATA) init() global word_set #初始是set() global line_num #初始是-1 for line in ifp: line_num += 1 if line_num % 10000 == 0: print line_num line = line.strip() if not line:continue line = line.decode("utf-8","ignore") #設定為ignore,會忽略非法字元 word_list = [] for i in range(len(line)): if line[i] == " ":continue word_list.append(line[i]) word_set = word_set | set(word_list) #訓練預料庫中所有字的集合 lineArr = line.split(" ") line_state = [] for item in lineArr: line_state.extend(getList(item)) #一句話對應一行連續的狀態 if len(word_list) != len(line_state): print >> sys.stderr,"[line_num = %d][line = %s]" % (line_num, line.endoce("utf-8",'ignore')) else: for i in range(len(line_state)): if i == 0: Pi_dic[line_state[0]] += 1 #Pi_dic記錄句子第一個字的狀態,用於計算初始狀態機率 Count_dic[line_state[0]] += 1 #記錄每一個狀態的出現次數 else: A_dic[line_state[i-1]][line_state[i]] += 1 #用於計算轉移機率 Count_dic[line_state[i]] += 1 if not B_dic[line_state[i]].has_key(word_list[i]): B_dic[line_state[i]][word_list[i]] = 0.0 else: B_dic[line_state[i]][word_list[i]] += 1 #用於計算髮射機率 Output() ifp.close()if __name__ == "__main__": main()
代碼2:測試分詞效果
# -*- coding: utf-8 -*-def load_model(f_name): ifp = file(f_name, 'rb') return eval(ifp.read()) #eval參數是一個字串, 可以把這個字串當成運算式來求值,prob_start = load_model("trainHMM\prob_start.py")prob_trans = load_model("trainHMM\prob_trans.py")prob_emit = load_model("trainHMM\prob_emit.py")def viterbi(obs, states, start_p, trans_p, emit_p): #維特比演算法(一種遞迴演算法) V = [{}] path = {} for y in states: #初始值 V[0][y] = start_p[y] * emit_p[y].get(obs[0],0) #在位置0,以y狀態為末尾的狀態序列的最大機率 path[y] = [y] for t in range(1,len(obs)): V.append({}) newpath = {} for y in states: #從y0 -> y狀態的遞迴 (prob, state) = max([(V[t-1][y0] * trans_p[y0].get(y,0) * emit_p[y].get(obs[t],0) ,y0) for y0 in states if V[t-1][y0]>0]) V[t][y] =prob newpath[y] = path[state] + [y] path = newpath #選項組序列 (prob, state) = max([(V[len(obs) - 1][y], y) for y in states]) #在最後一個位置,以y狀態為末尾的狀態序列的最大機率 return (prob, path[state]) #返回機率和狀態序列def cut(sentence): prob, pos_list = viterbi(sentence,('B','M','E','S'), prob_start, prob_trans, prob_emit) return (prob,pos_list)if __name__ == "__main__": test_str = u"新華網駐東京記者報道" prob,pos_list = cut(test_str) print test_str print pos_list
結果
新華網駐東京記者報道['B', 'M', 'E', 'S', 'B', 'E', 'B', 'E', 'B', 'E']
人工分詞的預料(trainCorpus.txt_utf8)可以從此處下載。