標籤:tom 識別 總結 方法 bre continue TE 知識 處理
基於貝葉斯的深度神經網路自適應及其在魯棒自動語音辨識中的應用
直接貝葉斯DNN自適應
使用高斯先驗對DNN進行MAP自適應
為何貝葉斯在模型自適應中很有用?
DNN的MAP自適應:理論背景
基於GMM系統的MAP自適應
GMM作為產生性pdf:符合直覺
共軛先驗(Conjugate Prior)
在貝葉斯統計中,如果後驗分布與先驗分布屬於同類,則先驗分布與後驗分布被稱為共軛分布,而先驗分布被稱為似然函數的共軛先驗。
具體地說,就是給定貝葉斯公式
基於DNN的MAP自適應
但是DNN是鑒別性模型,它沒有產生性後驗機率的機率密度函數。
使得DNN近似為機率密度函數
先驗估計:經驗貝葉斯
對訓練說話人進行自適應,並分析說話人直接的參數分布。
Prior Estimation Cont‘d(先驗估計,接上頁)
con‘d, Abbreviation of continued, 接上頁
假設先驗分布為多元高斯
等式右邊,只用向量w完成了對矩陣W的表示(向量化)。
假設先驗分布為矩陣高斯
多元高斯與矩陣高斯的結果類似,不過多元高斯先驗使用了向量化,更易於處理、更易於簡化至到L2正則項。
高斯先驗:易於簡化至到L2正則項
DNN自適應中的災難性遺忘
自適應後,DNN對自適應資料中見過的類有偏差;
喪失對未觀察到樣本的識別能力
貝葉斯用於解決災難性遺忘問題
控制參數數量(LHN)
只對插入到線性隱層的仿射變換權重進行適應:凍結其他參數
通常使用一個瓶頸層以控制LHN的大小,進一步較少參數數量。
MAP:只更新啟用函數參數
適應隱層中Sigmoid啟用函數(AF)參數
此方法更新的參數比LHN更少。
實驗(SWBD)
間接貝葉斯DNN自適應
對從DNN獲得瓶頸特徵進行MAP/SMAP
- 對DNN的直接自適應是可行的,但是還是比不上對GMM的貝葉斯自適應。
- 如何更好地利用成熟的貝葉斯自適應方法
- 將DNN轉換為GMM
基於DNN瓶頸特徵處理後的特徵進行MAP/SMAP
瓶頸特徵是鑒別性資料驅動方式訓練的;
通過拼接以使用DNN的優點;
要獲得瓶頸特徵:
- 訓練一個帶有瓶頸層的DNN;
- 訓練一個不帶有瓶頸層的DNN,然後進行奇異值分解(SVD)以得到瓶頸;
- 不使用瓶頸層,只進行PCA/LDA降維;
MAP/SMAP自適應
MAP
是有效模型自適應方法,對小資料集魯棒;
資料量很大時,將蛻化至(相當於)最大似然估計(MLE);
會由於缺少資料,不能更新未見的三音素;
SMAP(Structured MAP)
針對少資料量的結構化MAP自適應
MAP/SMAP實驗
瓶頸特徵的GMM-HMM略微差與原DNN-HMM(基準)結果(WER提高0.2%,8.84->8.86)
對瓶頸特徵進行MAP的GMM-HMM WER降低5.2%(8.84->8.38)
對瓶頸特徵進行SMAP的GMM-HMM WER降低11.1%(8.84->7.85)
與MAP-LHN、LHN相比,SMAP最優。
總結
直接DNN自適應:
通過瓶頸特徵,將DNN"轉換"為產生性模型
A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition