標籤:語音辨識
一、概述
作為最自然的人機互動方式 --語音,正在改變人們的生活,豐富多媒體技術的應用。語音辨識技術是語音訊號處理的一個重要分支,也是近年來很火的一個研究領域。隨著科技的飛速發展,語音辨識不僅在案頭PC和大型工作站得到了廣泛應用,而且在嵌入式系統領域也佔有一席之地,如智能家居、蘋果的Siri、車載語音辨識系統等。相信在不久的將來,語音辨識技術必定會滲透在人們生活的每個角落。
二、語音辨識系統的分類
語音辨識按照說話人的說話方式可以分為孤立詞(IsolatedWord)識別、串連詞(Connected Word)識別和連續語音(Continuous Speech)識別。孤立詞識別是指說話人每次只說一個詞或短語,每個詞或短語在詞彙表中都算作一個詞條,一般用在語音電話撥號系統中;串連詞語音辨識支援一個小的文法網路,其內部形成一個狀態機器,可以實現簡單的家用電器的控制,而複雜的串連詞語音辨識系統可以用於電話語音查詢、航空訂票等系統;連續語音辨識是指對說話人以日常自然的方式發音,通常特指用於語音錄入的聽寫機。
從識別對象的類型來看,語音辨識可以分為特定人(SpeakerDependent)語音辨識和非特定人(Speaker Independent)語音辨識。特定人是指只針對一個使用者的語音辨識,非特定人則可用於不同的使用者。
從識別的詞彙量大小可以分為小詞彙量(詞數少於100)、中等詞彙量(詞數100~500)和大詞彙量(詞數多於500)。
非特定人大詞彙量連續語音辨識是近幾年研究的重點,也是研究的痛點。目前的連續語音辨識大多是基於HMM(隱馬爾科夫模型)架構,並將聲學、語言學的知識統一引入來改善這個架構,其硬體平台通常是功能強大的工作站或PC機。
三、語音辨識的原理
語音辨識就是對麥克風輸入的語音訊號進行解析和理解,並將其轉化為相應的文本或命令。
一個完整的語音辨識系統主要包括三個部分:
(1)語音特徵提取(前端處理部分):目的是濾除各種幹擾成分,從語音波形中提取出隨時間變化的能表現語音內容的特徵向量序列。
(2) 聲學模型和模式比對(識別演算法):聲學模型通常由獲得的語音特徵通過訓練產生,目的是為每個發音建立發音模板。在識別時將輸入的語音特徵同聲學模型進行匹配與比較,得到最佳識別結果。
(3) 語義理解(後處理):電腦對識別結果進行語義、文法分析,明白語音的意義以便做出相應的反應,通常通過語言模型來實現。
語音辨識原理如所示:
待識別語音經話筒轉化為電訊號後加在識別系統的輸入端,經過預先處理,接著進行語音特徵提取,用反映語音訊號特徵的若干參數來代表原始語音。常用的語音特徵包括:線性預測係數(LPC)、線性預測倒譜係數(LPCC)、Mel頻譜係數(MFCC)等。接下來分為兩個階段::訓練階段和識別階段。在訓練階段,對用特徵參數形式表示的語音訊號進行相應處理,獲得表示識別基本單元共性特點的標準資料,以此構成參考模板,將所有能識別的基本單元的參考模板結合在一起,形成參考模式庫;在識別階段,將待識別的語音訊號經特徵提取後逐一與參考模式庫中的各個模板按某種原則進行匹配,找出最相似的參考模板所對應的發音,即為識別結果。最後進行語音處理,涉及文法分析、語音理解、語義網路等。
語音辨識過程要根據模式比對原則,計算未知語音模式與語音模板庫中的每一個模板的距離測度,從而得到最佳的匹配模式。語音辨識所應用的模式比對方法主要有動態時間規整(Dynamic Time Warping,DTW),隱馬爾科夫模型(Hidden Markov Model,HMM)和人工神經元網路(Artificial Neural Networks,ANN)。
四、難題
識別率是衡量語音辨識系統效能好壞的一個重要指標,在實際應用中,識別率主要受到以下幾個因素的影響:
1、 對於漢語語音辨識,方言或口音會降低識別率;
2、 背景雜訊。公用場所的強雜訊對識別效果影響甚大,即使是在實驗室環境下,敲擊鍵盤、移動麥克風都會成為背景雜訊;
3、 “口語”問題。它既涉及到自然語言理解,又與聲學有關。語音辨識技術的最終目的是要讓使用者在“人機對話”時,能夠像進行“人與人對話”一樣自然,而一旦使用者以跟人交談的方式進行語音輸入時,口語的文法不規範和語序不正常的特點會給語義的分析和理解帶來困難。
此外,識別率還與說話人的性別、說話時間長短等有關。
即時性是衡量語音辨識系統效能好壞的另一指標。
對於具有高速運算能力的CPU和大量存放區的PC而言,基本上能夠滿足即時性的要
求;而對於資源有限的嵌入式系統來說,即時性幾乎得不到保證。
下一篇文章將對關鍵技術(如端點檢測、參數提取、模式識別)進行探討。
參考資料:《matlab擴充編程》
2014年6月26日星期四15時28分