LDA 理解及分析

來源:互聯網
上載者:User

首先給出一些參考網址:

http://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1

http://www.xperseverance.net/blogs/tag/gibbs-sampling/

第一個講的很仔細了

這裡我主要是對自己理解的一個總結:

LDA是什麼,其實就是一個簡單的model。

他能用來幹什麼呢?他可以用來提取主題,例如我們有一堆的文本或者文檔,我們希望得到這些文檔包含了那些主題,這個時候我們可以去用LDA模型

我們可以規定提取幾個主題和每個主題都包括多少個word,這個是lda可以實現的。

LDA涉及到什麼知識:

Direchle Process,吉布斯採樣,Gamma分布等等,

但是我們不能被這個嚇住了,看LDA的paper也覺得很困難,公式一大堆對吧

其實說白了一直是在找一個公式去計算word-topic,topic-document 和document-word的機率嗎

我們先不管這些東西怎麼算:

我告訴大家這個東西:

在初始化的時候我們有了alpha和beta,這兩個參數就已經告訴了我們topic-document和topic-word的機率了

因為這兩個參數告訴了我們topic-document和topic-word的direchlet分布。

那麼大家一定覺得這個計算完了,既然已經知道了分布,那就結束了啊

但是我們知道了分布,但是我們不知道如何去分布每個topic中的單詞

這個問題如何解決?

於是大家用到了吉布斯採樣,也有用用EM演算法,當然,都是在求一個最有解而已。

吉布斯採樣是MCMC的一個特殊情況。

吉布斯參與的目的是什麼呢?

我們用吉布斯參與去更新每一個單詞的topic分布,從而達到一個穩定值

這個過程

http://www.xperseverance.net/blogs/tag/gibbs-sampling/

這個bolg裡面的代碼是LDA的一個java代碼

http://www.arbylon.net/projects/LdaGibbsSampler.java

代碼很簡單,也方便大家的理解。

如果那裡寫的不對,希望大家指出,互相學習。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.