基於C語言的設計流最佳化語音辨識晶片結構設計

來源:互聯網
上載者:User

據預測,市場對語音控制應用裝置的需求將急劇增長,其推動力來自電話機市場。電話機將更多地採用語音命令進行控制。其他應用領域包括玩具和手持功能如計算機、語音控制的安全系統、家用電器及車載裝置(立體聲、視窗、環境控制、車燈和導航控制)。本文從可複用和最佳化晶片空間的角度出發介紹語音辨識晶片結構設計的種種考慮,其思路有利於開發一系列其它語音辨識晶片。

新加坡Columns公司在攜帶型語音控制產品應用中起步較早,其中一個產品是執行歐元與其他歐洲貨幣之間進行兌換的“語音控制歐洲貨幣兌換器”。歐元兌換器的設計要求包括:1. 功率小,電池壽命至少為1年;2. 價格低廉,產品零售價不超過9美元;3.具有很強的靈活性,能用多種語言精確地識別併合成與說話人相關的語音;4. 整個語音控制核產品應具備可複用的特性。

本文介紹利用Frontier Design公司設計工具來開發歐元兌換器ASIC產品 的全過程。在ASIC中實現複雜DSP演算法的要求通常極為苛刻,但採用Frontier的結構合成工具A|RT Designer工具能迅速最佳化RTL描述,該工具還允許自由選擇備用結構以最佳化應用設計。

通過應用基於C語言的設計流,能在結構設計階段對新特性進行設計和硬體最佳化,這能降低50%的矽片面積,通過加快 C語言原型硬體的設計,可以進一步擴充設計的效能以滿足使用者對產品規格的嚴格要求。 

演算法研究

歐元兌換器的效率在一定程度上取決於語音命令與儲存資料庫的比較以及執行命令的能力。開發出滿足最終產品要求的演算法對設計的成功至關重要,因為沒有人希望看到語音控制裝置不能始終如一地識別命令,人們需要演算法自始至終達到98%以上的識別精度。因此,目前面臨的難題包括檢測並清除背景雜訊、區分真實的命令字和其他雜訊(呼吸聲、微小靜電幹擾聲及麥克風聲響)、確定命令字的起始和終止以及將輸入與儲存的“聲紋譜”資料庫及隨後的命令字識別(圖1)進行比較。

以下幾種先進的計算密集DSP演算法適用於解決上述問題:1. Mel頻率聲譜(cepstral)係數(MFCC)演算法,MFCC演算法由快速傅立葉變換(FFT)功能譜、Mel定標和log ii構成;2. 反離散餘弦變換(iDCT);3. 應用多重估計和選擇演算法連續識別並估計背景聲音和語音雜訊的連續雜訊電平估計程式;4. 在命令字有效期間及其附近對聲音能級實施詳盡分析的不精確和精確命令字邊界檢測演算法;5. 對一系列不等長度的向量進行比較並在這些向量間比較期間變化的動態時間扭曲演算法(dynamic time warp)。 

該演算法用浮點C語言編程,為了調整並最佳化參數,浮點C代碼的編譯和模擬速度要足夠快以檢驗演算法的效能。最後,C語言代碼必須能在傳統的PC機上運行,語音辨識和合成演算法的效能可在實際環境中進行測試。最終的語音辨識演算法在450MHz奔騰機上測試,當用該公司的內部語音記錄庫進行測試時,可得到99%的識別精度。

浮點演算法向定點演算法轉換

晶片實現需要將浮點演算法轉換為定點演算法,要保證動態範圍和精度並防止轉換後超越動態極限。常規定點運算元的非最佳化範圍可能導致運算元繞回(wrap around, 如(max+1)得到(min)),並引發嚴重的削波和誤碼。定點的精確度同等重要,特別是在重複的訊號處理運算中。當精確度不夠時,重複的訊號處理演算法將導致故障傳播和錯誤累積,最終訊號可能逐漸退化成白色雜訊,這對於語音控制產品來說無疑是災難性的錯誤。

Frontier工具擁有一個稱為A|RT庫的C++類庫,它是分析C代碼定點效能的工具。該類庫支援多種定點資料類型,對多重溢出行為(如飽和和繞回)提供位真建模(bit-true modeling),並提供截斷和舍入零等多重量化模型。原始的32位浮點語音辨識演算法支援資料以8 KHz輸入,其典型訊號頻寬為32位,記憶體容量要求為幾KB,典型語音使用者介面的輸出以每秒幾位元組的速率測量。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.