【轉】用python實現簡單的文本情感分析

來源:互聯網
上載者:User

標籤:流程   詞典   卡住了   原理   電話   聲音   返回   程式   path   

import jiebaimport numpy as np# 開啟詞典檔案,返回列表def open_dict(Dict=‘hahah‘,path = r‘/Users/zhangzhenghai/Downloads/Textming/‘):    path = path + ‘%s.txt‘ %Dict    dictionary = open(path, ‘r‘, encoding=‘utf-8‘)    dict = []    for word in dictionary:        word = word.strip(‘\n‘)        dict.append(word)    return dictdef judgeodd(num):    if num % 2 == 0:        return ‘even‘    else:        return ‘odd‘deny_word = open_dict(Dict=‘否定詞‘)posdict = open_dict(Dict=‘positive‘)negdict = open_dict(Dict = ‘negative‘)degree_word = open_dict(Dict = ‘程度層級詞語‘,path=r‘/Users/zhangzhenghai/Downloads/Textming/‘)mostdict = degree_word[degree_word.index(‘extreme‘)+1: degree_word.index(‘very‘)] #權重4,即在情感前乘以3verydict = degree_word[degree_word.index(‘very‘)+1: degree_word.index(‘more‘)] #權重3moredict = degree_word[degree_word.index(‘more‘)+1: degree_word.index(‘ish‘)]#權重2ishdict = degree_word[degree_word.index(‘ish‘)+1: degree_word.index(‘last‘)]#權重0.5def sentiment_score_list(dataset):    seg_sentence = dataset.split(‘。‘)    count1 = []    count2 = []    for sen in seg_sentence: # 迴圈遍曆每一個評論        segtmp = jieba.lcut(sen, cut_all=False) # 把句子進行分詞,以列表的形式返回        i = 0 #記錄掃描到的詞的位置        a = 0 #記錄情感詞的位置        poscount = 0 # 積極詞的第一次分值        poscount2 = 0 # 積極反轉後的分值        poscount3 = 0 # 積極詞的最後分值(包括歎號的分值)        negcount = 0        negcount2 = 0        negcount3 = 0        for word in segtmp:            if word in posdict: # 判斷詞語是否是情感詞                poscount +=1                c = 0                for w in segtmp[a:i]: # 掃描情感詞前的程度詞                    if w in mostdict:                        poscount *= 4.0                    elif w in verydict:                        poscount *= 3.0                    elif w in moredict:                       poscount *= 2.0                    elif w in ishdict:                        poscount *= 0.5                    elif w in deny_word: c+= 1                if judgeodd(c) == ‘odd‘: # 掃描情感詞前的否定詞數                    poscount *= -1.0                    poscount2 += poscount                    poscount = 0                    poscount3 = poscount + poscount2 + poscount3                    poscount2 = 0                else:                    poscount3 = poscount + poscount2 + poscount3                    poscount = 0                a = i+1            elif word in negdict: # 消極情感的分析,與上面一致                negcount += 1                d = 0                for w in segtmp[a:i]:                    if w in mostdict:                        negcount *= 4.0                    elif w in verydict:                        negcount *= 3.0                    elif w in moredict:                        negcount *= 2.0                    elif w in ishdict:                        negcount *= 0.5                    elif w in degree_word:                        d += 1                if judgeodd(d) == ‘odd‘:                    negcount *= -1.0                    negcount2 += negcount                    negcount = 0                    negcount3 = negcount + negcount2 + negcount3                    negcount2 = 0                else:                    negcount3 = negcount + negcount2 + negcount3                    negcount = 0                a = i + 1            elif word == ‘!‘ or word == ‘!‘: # 判斷句子是否有驚嘆號                for w2 in segtmp[::-1]: # 掃描驚嘆號前的情感詞,發現後權值+2,然後退出迴圈                    if w2 in posdict or negdict:                        poscount3 += 2                        negcount3 += 2                        break            i += 1            # 以下是防止出現負數的情況            pos_count = 0            neg_count = 0            if poscount3 <0 and negcount3 > 0:                neg_count += negcount3 - poscount3                pos_count = 0            elif negcount3 <0 and poscount3 > 0:                pos_count = poscount3 - negcount3                neg_count = 0            elif poscount3 <0 and negcount3 < 0:                neg_count = -pos_count                pos_count = -neg_count            else:                pos_count = poscount3                neg_count = negcount3            count1.append([pos_count,neg_count])        count2.append(count1)        count1=[]    return count2def sentiment_score(senti_score_list):    score = []    for review in senti_score_list:        score_array =  np.array(review)        Pos = np.sum(score_array[:,0])        Neg = np.sum(score_array[:,1])        AvgPos = np.mean(score_array[:,0])        AvgPos = float(‘%.lf‘ % AvgPos)        AvgNeg = np.mean(score_array[:, 1])        AvgNeg = float(‘%.1f‘ % AvgNeg)        StdPos = np.std(score_array[:, 0])        StdPos = float(‘%.1f‘ % StdPos)        StdNeg = np.std(score_array[:, 1])        StdNeg = float(‘%.1f‘ % StdNeg)        score.append([Pos,Neg,AvgPos,AvgNeg,StdPos,StdNeg])    return scoredata = ‘用了幾天又來評價的,手機一點也不卡,玩榮耀的什麼的不是問題,充電快,電池夠大,玩遊戲可以玩幾個小時,待機應該可以兩三天吧,很贊‘data2 = ‘不知道怎麼講,真心不怎麼喜歡,通話時聲音小,新手機來電話竟然卡住了接不了,原本打算退,剛剛手機摔了,又退不了,感覺不會再愛,像素不知道是我不懂還是怎麼滴 感覺還沒z11mini好,哎要我怎麼評價 要我如何喜歡努比亞 太失望了‘print(sentiment_score(sentiment_score_list(data)))print(sentiment_score(sentiment_score_list(data2)))

情感分析簡介:

情感分析就是分析一句話說得是很主觀還是客觀描述,分析這句話表達的是積極的情緒還是消極的情緒。

原理
比如這麼一句話:“這手機的畫面極好,操作也比較流暢。不過拍照真的太爛了!系統也不好。”
① 情感詞
要分析一句話是積極的還是消極的,最簡單最基礎的方法就是找出句子裡面的情感詞,積極的情感詞比如:贊,好,順手,華麗等,消極情感詞比如:差,爛,壞,坑爹等。出現一個積極詞就+1,出現一個消極詞就-1。
裡面就有“好”,“流暢”兩個積極情感詞,“爛”一個消極情感詞。那它的情感分值就是1+1-1+1=2. 很明顯這個分值是不合理的,下面一步步修改它。
② 程度詞
“好”,“流暢”和‘爛“前面都有一個程度修飾詞。”極好“就比”較好“或者”好“的情感更強,”太爛“也比”有點爛“情感強得多。所以需要在找到情感詞後往前找一下有沒有程度修飾,並給不同的程度一個權值。比如”極“,”無比“,”太“就要把情感分值*4,”較“,”還算“就情感分值*2,”只算“,”僅僅“這些就*0.5了。那麼這句話的情感分值就是:4*1+1*2-1*4+1=3
③ 驚嘆號
可以發現太爛了後面有驚嘆號,歎號意味著情感強烈。因此發現歎號可以為情感值+2. 那麼這句話的情感分值就變成了:4*1+1*2-1*4-2+1 = 1
④ 否定詞
明眼人一眼就看出最後面那個”好“並不是表示”好“,因為前面還有一個”不“字。所以在找到情感詞的時候,需要往前找否定詞。比如”不“,”不能“這些詞。而且還要數這些否定詞出現的次數,如果是單數,情感分值就*-1,但如果是偶數,那情感就沒有反轉,還是*1。在這句話裡面,可以看出”好“前面只有一個”不“,所以”好“的情感值應該反轉,*-1。
因此這句話的準確情感分值是:4*1+1*2-1*4-2+1*-1 = -1
⑤ 積極和消極分開來
再接下來,很明顯就可以看出,這句話裡面有褒有貶,不能用一個分值來表示它的情感傾向。而且這個權值的設定也會影響最終的情感分值,敏感度太高了。因此對這句話的最終的正確的處理,是得出這句話的一個積極分值,一個消極分值(這樣消極分值也是正數,無需使用負數了)。它們同時代表了這句話的情感傾向。所以這句評論應該是”積極分值:6,消極分值:7“
⑥ 以分句的情感為基礎
再仔細一步,詳細一點,一條評論的情感分值是由不同的分句加起來的,因此要得到一條評論的情感分值,就要先計算出評論中每個句子的情感分值。這條例子評論有四個分句,因此其結構如下([積極分值, 消極分值]):[[4, 0], [2, 0], [0, 6], [0, 1]] 
以上就是使用情感詞典來進行情感分析的主要流程了,演算法的設計也會按照這個思路來實現。
演算法設計
第一步:讀取評論資料,對評論進行分句。
第二步:尋找對分句的情感詞,記錄積極還是消極,以及位置。
第三步:往情感詞前尋找程度詞,找到就停止搜尋。為程度詞設權值,乘以情感值。
第四步:往情感詞前尋找否定詞,找完全部否定詞,若數量為奇數,乘以-1,若為偶數,乘以1。
第五步:判斷分句結尾是否有驚嘆號,有歎號則往前尋找情感詞,有則相應的情感值+2。
第六步:計算完一條評論所有分句的情感值,用數組(list)記錄起來。
第七步:計算並記錄所有評論的情感值。
第八步:通過分句計算每條評論的積極情感均值,消極情感均值,積極情感方差,消極情感方差。

轉自:https://zhuanlan.zhihu.com/p/23225934

原作者提供了下載連結: https://pan.baidu.com/s/1jIRoOxK 密碼: 6wq4

 

存粹轉寄,留著以後自己用,後經實驗部分代碼健壯性差點(評論文字稍長,程式報錯),需要的時候再加固。

 

【轉】用python實現簡單的文本情感分析

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.