淺談gibbs sampling（LDA實驗）

最後更新：2018-12-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

先把問題描述一下：

如果我們已知了topic內的每個詞的詞頻，比如中topic1 中money 2 次，loan 3次...那麼任意給一個文檔我們可以對裡面每一個詞算一個產生這個詞的機率即 P(w=wi|t=tj)

如，doc1 中的money 百分之百的來自於topic1 。doc2 中的詞用topic1 無法全部解釋，必須藉助topic2 。

但現在問題是，如果我們只有一堆文檔，Doc1，Doc2，Doc3，且拍腦袋的大概知道會有2個topic，那麼怎麼產生著兩個topic才能最好的解釋這三個文檔呢？

因此我們要計算一個機率，即文檔中的這個詞活脫脫的呈現在我們面前的機率P（wi），我們儘可能想辦法讓這個機率最大。就好像XX廠長成功了，我們要羅織功勞，讓XX廠長成功這件事，最可信。

那麼這個機率計算的方法如，簡單來說就是 P（wi） = P（wi|topic) * P(topic|doc)*p(doc)，我們省略p(doc)【求解沒有意義】於是得到下面公式。

現在問題又來了，如果給定一個文檔di的一個詞wi，他最大可能是來自哪個topic呢？

即求解P(topic|(di,wi))?

也就是論文中的CWT和CDT，而公式左邊（CWT+β）/（∑CWT+Wβ）表示的含義就是P(wi|topic)，即topic產生wi的能力。後面一個是P（doc|topici)。

為了驗證有效性，我對論文中的這個例子做了實驗，很遺憾沒有做到他的結果，但我感覺應該是對的，其中α，大家可以調大調小了試試看，調大了的結果是每個文檔接近同一個topic，即讓p(wi|topici)發揮的作用小，這樣p(di|topici)發揮的作用就大。其中的β，調大的結果是讓p(di|topici)發揮的作用變下，而讓p(wi|topici)發揮的作用變大，體現在每個topic更集中在幾個詞彙上面，或者而每個詞彙都儘可能的百分百機率轉移到一個topic上。

大家可以看下論文，用My Code實際感覺下資料的變化。

以下to @老師木 @王威廉 @李沐mu @等高手：

我覺得論文中的結果也很奇怪，如果在更新wi的類標號的時候，比如更新第一個doc的第二詞，money，money出現了6次（2黑，4白），如果第一個更新為白，後面怎麼可能更新為黑呢？如果不可能，為什麼論文作者在64次迭代後，會有一些文檔同一個word會打上不同的類標籤，比如doc2，的bank，打了4黑1白？

我嘗試過update放在每個更新之後，發現也做不到，很神奇，也許論文作者原始文檔的term出現順序不是我寫的那樣。

代碼和論文地址：

https://github.com/pennyliang/MachineLearning-C---code/tree/master/gibbs_sampling

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

淺談gibbs sampling（LDA實驗）

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support