標籤:流程 詞典 卡住了 原理 電話 聲音 返回 程式 path
import jiebaimport numpy as np# 開啟詞典檔案,返回列表def open_dict(Dict=‘hahah‘,path = r‘/Users/zhangzhenghai/Downloads/Textming/‘): path = path + ‘%s.txt‘ %Dict dictionary = open(path, ‘r‘, encoding=‘utf-8‘) dict = [] for word in dictionary: word = word.strip(‘\n‘) dict.append(word) return dictdef judgeodd(num): if num % 2 == 0: return ‘even‘ else: return ‘odd‘deny_word = open_dict(Dict=‘否定詞‘)posdict = open_dict(Dict=‘positive‘)negdict = open_dict(Dict = ‘negative‘)degree_word = open_dict(Dict = ‘程度層級詞語‘,path=r‘/Users/zhangzhenghai/Downloads/Textming/‘)mostdict = degree_word[degree_word.index(‘extreme‘)+1: degree_word.index(‘very‘)] #權重4,即在情感前乘以3verydict = degree_word[degree_word.index(‘very‘)+1: degree_word.index(‘more‘)] #權重3moredict = degree_word[degree_word.index(‘more‘)+1: degree_word.index(‘ish‘)]#權重2ishdict = degree_word[degree_word.index(‘ish‘)+1: degree_word.index(‘last‘)]#權重0.5def sentiment_score_list(dataset): seg_sentence = dataset.split(‘。‘) count1 = [] count2 = [] for sen in seg_sentence: # 迴圈遍曆每一個評論 segtmp = jieba.lcut(sen, cut_all=False) # 把句子進行分詞,以列表的形式返回 i = 0 #記錄掃描到的詞的位置 a = 0 #記錄情感詞的位置 poscount = 0 # 積極詞的第一次分值 poscount2 = 0 # 積極反轉後的分值 poscount3 = 0 # 積極詞的最後分值(包括歎號的分值) negcount = 0 negcount2 = 0 negcount3 = 0 for word in segtmp: if word in posdict: # 判斷詞語是否是情感詞 poscount +=1 c = 0 for w in segtmp[a:i]: # 掃描情感詞前的程度詞 if w in mostdict: poscount *= 4.0 elif w in verydict: poscount *= 3.0 elif w in moredict: poscount *= 2.0 elif w in ishdict: poscount *= 0.5 elif w in deny_word: c+= 1 if judgeodd(c) == ‘odd‘: # 掃描情感詞前的否定詞數 poscount *= -1.0 poscount2 += poscount poscount = 0 poscount3 = poscount + poscount2 + poscount3 poscount2 = 0 else: poscount3 = poscount + poscount2 + poscount3 poscount = 0 a = i+1 elif word in negdict: # 消極情感的分析,與上面一致 negcount += 1 d = 0 for w in segtmp[a:i]: if w in mostdict: negcount *= 4.0 elif w in verydict: negcount *= 3.0 elif w in moredict: negcount *= 2.0 elif w in ishdict: negcount *= 0.5 elif w in degree_word: d += 1 if judgeodd(d) == ‘odd‘: negcount *= -1.0 negcount2 += negcount negcount = 0 negcount3 = negcount + negcount2 + negcount3 negcount2 = 0 else: negcount3 = negcount + negcount2 + negcount3 negcount = 0 a = i + 1 elif word == ‘!‘ or word == ‘!‘: # 判斷句子是否有驚嘆號 for w2 in segtmp[::-1]: # 掃描驚嘆號前的情感詞,發現後權值+2,然後退出迴圈 if w2 in posdict or negdict: poscount3 += 2 negcount3 += 2 break i += 1 # 以下是防止出現負數的情況 pos_count = 0 neg_count = 0 if poscount3 <0 and negcount3 > 0: neg_count += negcount3 - poscount3 pos_count = 0 elif negcount3 <0 and poscount3 > 0: pos_count = poscount3 - negcount3 neg_count = 0 elif poscount3 <0 and negcount3 < 0: neg_count = -pos_count pos_count = -neg_count else: pos_count = poscount3 neg_count = negcount3 count1.append([pos_count,neg_count]) count2.append(count1) count1=[] return count2def sentiment_score(senti_score_list): score = [] for review in senti_score_list: score_array = np.array(review) Pos = np.sum(score_array[:,0]) Neg = np.sum(score_array[:,1]) AvgPos = np.mean(score_array[:,0]) AvgPos = float(‘%.lf‘ % AvgPos) AvgNeg = np.mean(score_array[:, 1]) AvgNeg = float(‘%.1f‘ % AvgNeg) StdPos = np.std(score_array[:, 0]) StdPos = float(‘%.1f‘ % StdPos) StdNeg = np.std(score_array[:, 1]) StdNeg = float(‘%.1f‘ % StdNeg) score.append([Pos,Neg,AvgPos,AvgNeg,StdPos,StdNeg]) return scoredata = ‘用了幾天又來評價的,手機一點也不卡,玩榮耀的什麼的不是問題,充電快,電池夠大,玩遊戲可以玩幾個小時,待機應該可以兩三天吧,很贊‘data2 = ‘不知道怎麼講,真心不怎麼喜歡,通話時聲音小,新手機來電話竟然卡住了接不了,原本打算退,剛剛手機摔了,又退不了,感覺不會再愛,像素不知道是我不懂還是怎麼滴 感覺還沒z11mini好,哎要我怎麼評價 要我如何喜歡努比亞 太失望了‘print(sentiment_score(sentiment_score_list(data)))print(sentiment_score(sentiment_score_list(data2)))
情感分析簡介:
情感分析就是分析一句話說得是很主觀還是客觀描述,分析這句話表達的是積極的情緒還是消極的情緒。
原理
比如這麼一句話:“這手機的畫面極好,操作也比較流暢。不過拍照真的太爛了!系統也不好。”
① 情感詞
要分析一句話是積極的還是消極的,最簡單最基礎的方法就是找出句子裡面的情感詞,積極的情感詞比如:贊,好,順手,華麗等,消極情感詞比如:差,爛,壞,坑爹等。出現一個積極詞就+1,出現一個消極詞就-1。
裡面就有“好”,“流暢”兩個積極情感詞,“爛”一個消極情感詞。那它的情感分值就是1+1-1+1=2. 很明顯這個分值是不合理的,下面一步步修改它。
② 程度詞
“好”,“流暢”和‘爛“前面都有一個程度修飾詞。”極好“就比”較好“或者”好“的情感更強,”太爛“也比”有點爛“情感強得多。所以需要在找到情感詞後往前找一下有沒有程度修飾,並給不同的程度一個權值。比如”極“,”無比“,”太“就要把情感分值*4,”較“,”還算“就情感分值*2,”只算“,”僅僅“這些就*0.5了。那麼這句話的情感分值就是:4*1+1*2-1*4+1=3
③ 驚嘆號
可以發現太爛了後面有驚嘆號,歎號意味著情感強烈。因此發現歎號可以為情感值+2. 那麼這句話的情感分值就變成了:4*1+1*2-1*4-2+1 = 1
④ 否定詞
明眼人一眼就看出最後面那個”好“並不是表示”好“,因為前面還有一個”不“字。所以在找到情感詞的時候,需要往前找否定詞。比如”不“,”不能“這些詞。而且還要數這些否定詞出現的次數,如果是單數,情感分值就*-1,但如果是偶數,那情感就沒有反轉,還是*1。在這句話裡面,可以看出”好“前面只有一個”不“,所以”好“的情感值應該反轉,*-1。
因此這句話的準確情感分值是:4*1+1*2-1*4-2+1*-1 = -1
⑤ 積極和消極分開來
再接下來,很明顯就可以看出,這句話裡面有褒有貶,不能用一個分值來表示它的情感傾向。而且這個權值的設定也會影響最終的情感分值,敏感度太高了。因此對這句話的最終的正確的處理,是得出這句話的一個積極分值,一個消極分值(這樣消極分值也是正數,無需使用負數了)。它們同時代表了這句話的情感傾向。所以這句評論應該是”積極分值:6,消極分值:7“
⑥ 以分句的情感為基礎
再仔細一步,詳細一點,一條評論的情感分值是由不同的分句加起來的,因此要得到一條評論的情感分值,就要先計算出評論中每個句子的情感分值。這條例子評論有四個分句,因此其結構如下([積極分值, 消極分值]):[[4, 0], [2, 0], [0, 6], [0, 1]]
以上就是使用情感詞典來進行情感分析的主要流程了,演算法的設計也會按照這個思路來實現。
演算法設計
第一步:讀取評論資料,對評論進行分句。
第二步:尋找對分句的情感詞,記錄積極還是消極,以及位置。
第三步:往情感詞前尋找程度詞,找到就停止搜尋。為程度詞設權值,乘以情感值。
第四步:往情感詞前尋找否定詞,找完全部否定詞,若數量為奇數,乘以-1,若為偶數,乘以1。
第五步:判斷分句結尾是否有驚嘆號,有歎號則往前尋找情感詞,有則相應的情感值+2。
第六步:計算完一條評論所有分句的情感值,用數組(list)記錄起來。
第七步:計算並記錄所有評論的情感值。
第八步:通過分句計算每條評論的積極情感均值,消極情感均值,積極情感方差,消極情感方差。
轉自:https://zhuanlan.zhihu.com/p/23225934
原作者提供了下載連結: https://pan.baidu.com/s/1jIRoOxK 密碼: 6wq4
存粹轉寄,留著以後自己用,後經實驗部分代碼健壯性差點(評論文字稍長,程式報錯),需要的時候再加固。
【轉】用python實現簡單的文本情感分析