大資料處理之道 (Gibbs Sampling)

來源:互聯網
上載者:User

標籤:吉布斯採樣   gibbs sampling   大資料分析方法   

一:簡介以及學習的途徑

(1)吉布斯採樣(Gibbs Sampling)及相關演算法  (學習向Gibbs sampling, EM,  MCMC演算法 等的好地方)

       1) 推薦大家讀Bishop的Pattern Recognition and Machine Learning,講的很清楚,偏理論一些;

       2) 讀artificial Intelligence,2、3版,都有;

       3) 如果英語好的話,最方便的就是查wikipedia,這個說的最清楚(研究生推薦讀一讀這個)

       4)不要什麼都百度去,百度在學術方面目前做的非常差的;Google 學術非常好的,Google 技術問題也是非常棒的,國外的開源網站和社區更多,不像國內的動不動就讓你註冊,讓你付費。

(2)簡介:

通俗點的解釋一下,sampling就是以一定的機率分布,看發生什麼事件。舉一個例子 —— 甲只能  E:吃飯、學習、打球,時間     T:上午、下午、晚上,天氣   W:晴朗、颳風、下雨。現在要一個sample,這個sample可以是:打球+下午+晴朗  

問題是我們不知道p(E,T,W),或者說,不知道三件事的聯合分布。當然,如果知道的話,就沒有必要用gibbs sampling了。 但是,我們知道三件事的conditional distribution。也就是說,p(E|T,W),p(T|E,W),p(W|E,T)。現在要做的就是通過這三個已知的條件分布,再用gibbs sampling的方法,得到joint distribution。

具體方法。首先隨便初始化一個組合,i.e. 學習+晚上+颳風,然後依條件機率改變其中的一個變數。具體說,假設我們知道晚上+颳風,我們給E產生一個變數,比如,學習-》吃飯。我們再依條件機率改下一個變數,根據學習+颳風,把晚上變成上午。類似地,把颳風變成颳風(當然可以變成相同的變數)。這樣學習+晚上+颳風-》吃飯+上午+颳風。

同樣的方法,得到一個序列,每個單元包含三個變數,也就是一個馬爾可夫鏈。然後跳過初始的一定數量的單元(比如100個),然後隔一定的數量取一個單元(比如隔20個取1個)。這樣sample到的單元,是逼近聯合分布的。

吉布斯(Gibbs)抽樣可以在給定共變數資料和參數的先驗分布條件下獲得結構方程參數的後驗分布樣本。參數的點估計、區間估計和標準誤就可以用這些樣本資料計算。

吉布斯採樣是產生馬爾科夫鏈的一種方法,產生的馬爾科夫鏈可以用來做蒙特卡洛模擬,從而求得一個較複雜的多元分布。

吉布斯採樣的具體做法:假設有一個k維的隨機向量,現想要構造一條有n個樣本的k維向量(n樣本馬爾科夫序列),那麼(隨機)初始化一個k維向量,然後固定這個向量其中的k-1個元素,抽取剩下的那個元素(產生給定後驗的隨機數),這樣迴圈k次,就把整個向量更新了一遍,也就是產生了一個新的樣本,把這個整體重複n次就得到了一條馬爾科夫鏈

二:所思所想

 (1)總是,感覺有一種罪惡感,自己現在苦學的C+stl人家大三已經全部自己實現了;我現在學的AKI中文分詞工具,人家課程設計就是它;我早就的HTMLparser是人家當年的課程設計;情感分析也是課程設計,各種分類聚類是人家當年的畢設,基於Nutch的搜尋的Hadoop人家的畢設;我難道是在彌補我考研所花費的一年時光嗎?

(2)研究生到底該幹什嗎?不能僅僅多了一張證件紙吧?難道是中國教育體質出了問題?研究生得做研究,學會系統的分析剖析問題,而非簡簡單單的機械的寫幾行代碼,而是開闊眼界,多學幾個模型原理及其應用,學會那些模型的核心思想。

(3)這可能變得非常自私,要是這樣你給導師帶來了什嗎?你給實驗室帶來了什麼?_?問這問題的人一定是目光短淺的人,從長遠來看,這樣的人給學校給國家帶來的利益更大,當然沒有直接的把導師的錢包變鼓起來,因為他沒有對導師的攻城寫過一行代碼,沒有設計過一份文檔

(4)導師虧了,那還行?因為導師我是行使權力的人,對我不利,不能給我帶來利益,這肯定不行,不能讓他畢業,儘管他將來能給學校國家帶來更大的利益和貢獻,但那跟我有毛關係!

大資料處理之道 (Gibbs Sampling)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.