LDA實現的兩種方法

來源:互聯網
上載者:User

       今天看到美帝一個實現LDA的法子,實現了一把,結果也對,參加方法2。可以對比方法1,計算量是降低了很多。

      但無論如何,有一個顯著的開銷是很大的,這就是每個Wm,n 都需要記錄一個類標籤,也就是代碼中doc那個三維矩陣,x表示文檔編號{0-15},y表示term編號{0-4},z表示label{0-1}

     假定文檔有10M個(一千萬),每篇文章1000個詞,詞典空間10K個,類標號100個,那這個矩陣的大小起碼是 10M*1K*(3位元組+1位元組)= 40GB ?

     所以大規模計算肯定不能怎麼表示,怎麼搞呢?待續,我實現了一個,參見:http://weibo.com/1497035431/zoWcFqHt5

      

      我一直想把LDA徹底打通,但還是覺得差一些,這個周末兩天,還是沒有如願 

    

      

例子來源:https://github.com/pennyliang/MachineLearning-C---code/blob/master/gibbs_sampling/SteyversGriffithsLSABookFormatted.pdf

方法1:https://github.com/pennyliang/MachineLearning-C---code/blob/master/gibbs_sampling/main.cpp

方法2:https://github.com/pennyliang/MachineLearning-C---code/blob/master/gibbs_sampling/main2.cpp

方法2演算法流程

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.