Time of Update: 2018-12-05
截止目前,已經知道了常用的機器學習演算法是怎麼回事兒、學習的步驟是怎麼進行的。但在機器學習的應用背景是多種多樣的,做實際工程必須學會如何根據 具體的問題評估一個學習模型的好壞,如何合理地選擇模型、提取特徵,如何進行參數調優。這些也是我以前做模式識別時欠缺的環節,所以在遇到識別率很低的情 況時,往往很困惑,不知道該如何改進:到底是應該改進模型改變特徵、還是應該增加訓練樣本數量,到底是應該最佳化迭代演算法,還是應該改變目標函數。通過學習 Learning
Time of Update: 2018-12-05
上一篇文章(中篇)裡 面,我用的是因子圖,而裡面也出現了Psi函數,本來應該當時就解釋清楚的,但實在沒有精力寫那麼多東西,所以就想放到下篇講的。後來發現,講條件 隨機場要結合有向無向圖和independence graph,來推導模型,必須又花一些篇幅講一下,這些都是基礎背景,所以就一起推到這裡來講了。起名字還讓我頭疼,下已經被條件隨機場預訂了,這篇反正
Time of Update: 2018-12-05
一、機率統計機率vs. 統計機率:研究隨機事件出現的可能性的數學分支,描述非確定性(Uncertainty)的形式語言,是統計推斷的基礎 機率: 一個事件或事件集合出現的可能性 基本問題:給定以一個資料產生過程,則輸出的性質是什麼統計推斷:處理資料分析和機率理論的數學分支,與資料挖掘和機器學習是近親 統計量:一個用以描述樣本或總體性質的數值,如均值或方差 基本問題:給定輸出資料,我們可以得到該資料的產生過程的哪些資訊 統計學 ≈ 根據資料進行推理的學科統計學習 ≈多元統計分析 +
Time of Update: 2018-12-05
在上一篇文章裡面,我們提到瞭解線性動態模型的四種代表性方法,並畫了這麼一張圖來表示他們之間的關係。這一篇文章中,我就針對他們的原理以及相互關係,來進行一些介紹。考慮到這四種方法中,樸素貝葉斯,隱馬爾可夫,最大熵模型都是比較熟悉的,所以不做重點介紹,介紹的中心會放在中文資料很少的CRF(中文有人翻譯成條件隨機場)上面。但CRF會由以上三種方法引出來。好,切入正題。先給出示範情景模型。假設我們有特徵向量x=(x1,x2,……xm),你可以把它們想像成一封封即將來到你郵箱的郵件,現在你想對這些郵件進行
Time of Update: 2018-12-05
隱馬爾科夫模型(Hidden Markov Models) 系列之三 介紹(introduction)產生模式(Generating Patterns)隱含模式(Hidden Patterns)隱馬爾科夫模型(Hidden Markov Models)前向演算法(Forward Algorithm)維特比演算法(Viterbi Algorithm)前向後向演算法(Forward-Backward Algorithm)總結 隱馬爾科夫模型(Hidden Markov
Time of Update: 2018-12-05
機率圖模型(Probabilistic Graphical Model)系列來自Stanford公開課Probabilistic Graphical Model中Daphne Koller 老師的講解。(https://class.coursera.org/pgm-2012-002/class/index)主要內容包括(轉載請註明原始出處http://blog.csdn.net/yangliuy)1. 貝葉斯網路及馬爾可夫網路的機率圖模型表示及變形。2. Reasoning
Time of Update: 2018-12-05
公司採用微軟的vsts管理代碼,在eclipse裡使用TFS外掛程式存取碼庫安裝方法1安裝時將plugin目錄裡的內容拷貝到eclipse\plugins目錄裡將features目錄裡的內容拷貝到eclipse\features目錄裡安裝方法2使用SoftUpdate方法也可從本地檔案夾安裝TFS工作中很有用的功能detect local changes 檢查本地改動,可以加入一些漏掉的changeAnnotate 顯示檔案修改的過程,主要是某段代碼是誰加上或者修改了。Synchronize
Time of Update: 2018-12-05
測試網站:http://nlp.stanford.edu:8080/parser/index.jsp先貼點代碼,是stanfor-parser的demo:import java.util.Collection;import java.util.List;import java.io.StringReader;import edu.stanford.nlp.process.TokenizerFactory;import
Time of Update: 2018-12-05
機率圖模型(Probabilistic Graphical Model)系列來自Stanford公開課Probabilistic Graphical Model中Daphne Koller 老師的講解。(https://class.coursera.org/pgm-2012-002/class/index)主要內容包括(轉載請註明原始出處http://blog.csdn.net/yangliuy)1. 貝葉斯網路及馬爾可夫網路的機率圖模型表示及變形。2. Reasoning 及
Time of Update: 2018-12-05
之前,我們大致介紹瞭解線性動態模型的前三種代表性方法,並畫了這麼一張圖來表示他們之間的關係。這一篇文章中,會對最後一種方法,CRF進行一些介紹。建議看這一篇文章之前,至少先把最大熵模型複習一遍,方便理解兩者的關係。然後看看動態模型及其求解介紹—番外篇,對的表示有一個比較清晰的認識。 從關係圖中我們看到,和NB與HMM之間的關係一樣,CRF實際上就是序列版本的ME模型。當然你可以說最大熵馬爾可夫也是一個序列模型,但是中篇文章已經提到了該模型的缺點了。而CRF則是用另一種思路去考慮問題的。也可以這樣
Time of Update: 2018-12-05
一、PGM圖來自:http://blog.sina.com.cn/s/blog_5980285201011z75.html 二、基於機率圖模型的推理,例子:舉一個簡單的例子,假如通過某個有噪音的通道發送一串資訊,這一串資訊由0和1組成,由於噪音的存在,每個位元有20%的機率出錯,同時由於發送的
Time of Update: 2018-12-05
HMM模型將標註看作馬爾可夫鏈,一階馬爾可夫鏈式針對相鄰標註的關係進行建模,其中每個標記對應一個機率函數。HMM是一種產生模型,定義了聯 合機率分布 ,其中x和y分別表示觀察序列和相對應的標註序列的隨機變數。為了能夠定義這種聯合機率分布,產生模型需要枚舉出所有可能的觀察序列,這在實際運算過程中很困難,因為我們需要將觀察序列的元素看做是彼此孤立的個體即假設每個元素彼此獨立,任何時刻的觀察結果只依賴於該時刻的狀態。HMM模
Time of Update: 2018-12-05
使用jacob要記住用ActiveXComponent調用word的quit方法1 建立空白的word文檔,加入內容,並儲存public class NewAWord{ public NewAWord(){ // 初始化com的線程,非常重要!!使用結束後要調用 release方法 ComThread.InitSTA(); // 初始化word應用程式,建立一個空白文檔,取得文檔內容對象 ActiveXComponent objWord = new
Time of Update: 2018-12-05
在vmware的paas平台cloudfoundry布署了一個價格抓取程式,隔一段時間會抓取價格進行處理。程式運行一段時間就會報too many open file錯誤。程式對開啟的檔案資源都進行了正確回收釋放,而且在本機windows環境布署的tomcat7上運行正常。在官網論壇上尋找原因分析,cloudfoundry平台基於linux,有filedescriptor數量的限制,免費的是256,如果超過256就會報too many open
Time of Update: 2018-12-05
http://www.kunli.info/2009/07/02/dynamic-model-solution-1/動態模型的應用在移動計算中可謂日漸繁榮,不管是從傳統領域轉移過來的識別,智能控制等領域,還是新興的情景資訊利用,都需要對動態模型應用的掌握。正好下一個項目可能會用到通過動態模型做機器識別的演算法,就在這裡整理一下以前的課程和看的paper獲得的知識。這個上篇不會具體介紹演算法,而是先大致介紹一下線性和非線性模型,然後從大方向上介紹一下解線性模型的一些常用方法。等下一次有一段連續空閑
Time of Update: 2018-12-05
使用者對資產庫管理的文檔提出了全文檢索索引的要求,但使用者又不願意花錢購買全文檢索索引,我們只好用lucene打造自己的全文檢索索引引擎。使用庖丁分詞庖丁分詞需要設定字典,可以在系統變數裡設定,注意目錄須為dic例如:字典的位置 c:\paoding\dic\相應的環境變數設定 變數名 PAODING_DIC_HOME 變數值 c:\paoding\dic\
Time of Update: 2018-12-05
隱馬爾科夫模型(Hidden Markov Models) 系列之四 介紹(introduction)產生模式(Generating Patterns)隱含模式(Hidden Patterns)隱馬爾科夫模型(Hidden Markov Models)前向演算法(Forward Algorithm)維特比演算法(Viterbi Algorithm)前向後向演算法(Forward-Backward Algorithm)總結 前向演算法(Forward
Time of Update: 2018-12-05
在讀取文字檔時,通常需要先擷取檔案的編碼集。可以採用 /** * @description 擷取檔案編碼集 * @date Jul 21, 2011 * @param file 檔案對象 * @return 檔案編碼集名稱 */ public static String getFileCharacterEnding(File file) { String fileCharacterEnding = "UTF-8";
Time of Update: 2018-12-05
隱馬爾科夫模型(Hidden Markov Models) 系列之二 介紹(introduction)產生模式(Generating Patterns)隱含模式(Hidden Patterns)隱馬爾科夫模型(Hidden Markov Models)前向演算法(Forward Algorithm)維特比演算法(Viterbi Algorithm)前向後向演算法(Forward-Backward Algorithm)總結 隱含模式(Hidden Patterns)當馬爾科夫過程不夠強大的時候,
Time of Update: 2018-12-05
如果單元測試依賴一些本地資源檔的話,最好把測試需要的資源檔放到classpath中或者是項目下的某個目錄中,也就是說要保證測試在任何環境下都可以正常運行資料庫相關的測試的一個主要的問題就是需要一個實際存在的資料庫並且在每次測試完成之後都不能在資料庫中引入垃圾資料。在測試的時候不要引入不必要的測試資料。要實現這個目標有兩種方式: 一、使用一個和實際資料庫一樣的測試資料庫 二、在每個測試完成之後,資料庫事務自動復原 三、使用Hibernate這種sql自動產生的ORM架構中,測試的時候使用記憶體資料