A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition

來源:互聯網
上載者:User

標籤:tom   識別   總結   方法   bre   continue   TE   知識   處理   

基於貝葉斯的深度神經網路自適應及其在魯棒自動語音辨識中的應用

  

直接貝葉斯DNN自適應

使用高斯先驗對DNN進行MAP自適應

為何貝葉斯在模型自適應中很有用?

  • 因為自適應問題可以視為後驗估計問題:

  • 能夠克服災難性遺忘問題

    在實現通用智能時,神經網路需要學習並記住多個任務,任務順序無標註,任務會不可預期地切換,同種任務可能在很長一段時間內不會複現。當對當前任務B進行學習時,對先前任務A的知識會突然地丟失,這種現象被稱為災難性遺忘(catastrophic forgetting)。

DNN的MAP自適應:理論背景

基於GMM系統的MAP自適應

GMM作為產生性pdf:符合直覺

共軛先驗(Conjugate Prior)

在貝葉斯統計中,如果後驗分布與先驗分布屬於同類,則先驗分布與後驗分布被稱為共軛分布,而先驗分布被稱為似然函數的共軛先驗

具體地說,就是給定貝葉斯公式

基於DNN的MAP自適應

但是DNN是鑒別性模型,它沒有產生性後驗機率的機率密度函數。

  

使得DNN近似為機率密度函數

  • 將DNN看作是一個機率密度函數

    將DNN的目標函數以機率(似然)形式表示:

  • 估計後驗機率

    其中似然L可以是交叉熵、最小互資訊、最小音素錯誤、最小分類錯誤等。

先驗估計:經驗貝葉斯

對訓練說話人進行自適應,並分析說話人直接的參數分布。

Prior Estimation Cont‘d(先驗估計,接上頁)

con‘d, Abbreviation of continued, 接上頁

  

假設先驗分布為多元高斯

等式右邊,只用向量w完成了對矩陣W的表示(向量化)。

假設先驗分布為矩陣高斯

多元高斯與矩陣高斯的結果類似,不過多元高斯先驗使用了向量化,更易於處理、更易於簡化至到L2正則項。

高斯先驗:易於簡化至到L2正則項

  • 多元高斯先驗的展開式:

      

  • L2正則化訓練

      

DNN自適應中的災難性遺忘

自適應後,DNN對自適應資料中見過的類有偏差;

喪失對未觀察到樣本的識別能力

貝葉斯用於解決災難性遺忘問題

控制參數數量(LHN)

只對插入到線性隱層的仿射變換權重進行適應:凍結其他參數

通常使用一個瓶頸層以控制LHN的大小,進一步較少參數數量。

MAP:只更新啟用函數參數

適應隱層中Sigmoid啟用函數(AF)參數

此方法更新的參數比LHN更少。

實驗(SWBD)

  • 保持權重不變,只更新AF參數,WER降低4.6%(15.1->14.4)

    在此基礎之上,以最大後驗機率準則更新AF參數,WER進一步降低2.8%(14.4->14.0)

      

  • 進行特徵空間最大似然線性迴歸(fMLLR),WER降低7.9%(15.1->13.9)

    在此基礎之上,以最大後驗機率準則更新AF參數,WER進一步降低5.0%(13.9->13.2)

間接貝葉斯DNN自適應

對從DNN獲得瓶頸特徵進行MAP/SMAP

  • 對DNN的直接自適應是可行的,但是還是比不上對GMM的貝葉斯自適應。
  • 如何更好地利用成熟的貝葉斯自適應方法
  • 將DNN轉換為GMM

基於DNN瓶頸特徵處理後的特徵進行MAP/SMAP

瓶頸特徵是鑒別性資料驅動方式訓練的;

通過拼接以使用DNN的優點;

  

要獲得瓶頸特徵:

  • 訓練一個帶有瓶頸層的DNN;
  • 訓練一個不帶有瓶頸層的DNN,然後進行奇異值分解(SVD)以得到瓶頸;
  • 不使用瓶頸層,只進行PCA/LDA降維;

MAP/SMAP自適應

MAP

是有效模型自適應方法,對小資料集魯棒;

資料量很大時,將蛻化至(相當於)最大似然估計(MLE);

會由於缺少資料,不能更新未見的三音素;

SMAP(Structured MAP)

針對少資料量的結構化MAP自適應

MAP/SMAP實驗

瓶頸特徵的GMM-HMM略微差與原DNN-HMM(基準)結果(WER提高0.2%,8.84->8.86)

對瓶頸特徵進行MAP的GMM-HMM WER降低5.2%(8.84->8.38)

對瓶頸特徵進行SMAP的GMM-HMM WER降低11.1%(8.84->7.85)

與MAP-LHN、LHN相比,SMAP最優。

總結

直接DNN自適應:

  • 使用高斯先驗進行有監督/無監督的自適應
  • 多任務學習(MTL)自適應以解決資料稀疏問題

    自適應時,需要對DNN構建一個架構。使用已提出的架構,可以將DNN應用到不同種類型的模型與不同的任務中。

通過瓶頸特徵,將DNN"轉換"為產生性模型

  • 使用瓶頸特徵將DNN-HMM轉換為GMM-HMM

    為DNN提供了使用傳統統計學機器學習方法(包括貝葉斯方法)

  

  

  

A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.