【python 走進NLP】NLP WordEmbedding的概念和實現__python

來源:互聯網
上載者:User

背景
如何表示詞語所包含的語義。

蘋果。水果。Iphone。
蘋果、梨子,這兩個詞相關嗎。

語言的表示
符號主義:Bags-of-word,維度高、過於稀疏、缺乏語義、模型簡單
分布式表示:Word Embedding,維度低、更為稠密、包含語義、訓練複雜

Word Embedding
核心思想:語義相關的詞語,具有相似的上下文環境,例如, 蘋果和梨子
所做的事情:將每個詞語訓練成,詞向量

實踐
基於gensim包和中文維基語料
gensim:http://radimrehurek.com/gensim/models/word2vec.html
中文維基分詞語料:連結 https://pan.baidu.com/s/1qXKIPp6 密碼 kade

# 載入包from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentence# 訓練模型sentences = LineSentence('wiki.zh.word.text')model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)# 儲存模型model.save('word_embedding_128')# 載入模型model = Word2Vec.load("word_embedding_128")# 使用模型items = model.most_similar(u'中國')model.similarity(u'男人',  u'女人')
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.