在ASP.NET程式中實現語音合成

來源:互聯網
上載者:User
asp.net|程式     你可能已經注意到,如今語音合成越來越普遍。成百上午的電動玩具和小器具都能夠以機器的聲音向它們的主人講話。不管它是一個講話的嬰兒玩偶,一個會談話的計步器或是一新的自動電話系統,現在幾乎每天都會有一種使用文本來發音的產品發行。

  文本-到-語音(TTS)技術,也稱為語音合成,是把輸入的文本轉換成音頻語音的過程。這種方式會優於預先錄製好的文本-它必須對要說的內容提前瞭解。而使用TTS,卻有可能加入動態資訊,該動態資訊可以來自於一個資料庫;或是使用者不斷重複的話。

   一、 TTS實驗

  如果你看到或聽說過實際的TTS,那麼你可能想下載一個免費版本的ReadPlease 2003。該產品能夠讀取Windows剪貼簿中的文本。要使用它,你只需要簡單地把一些文本粘貼到ReadPlease編輯器中(見圖1)-並且假定你的PC擴音器開啟了,那麼你會聽到文本的播放。當前,該產品僅能工作在所有的Windows案頭OS版本中,但是他們還計劃發行針對Mac,Unix,Palm和Windows CE系統的版本。

  ReadPlease令人感興趣的地方在於,你可以使用ReadPlease編輯器來實驗你的TTS參數選擇。例如,你可以通過上下移動如圖1所示的Speed滑動塊控制項來調整發音速度。你還可以通過點擊在小臉表徵圖下方的箭頭按鈕來改變所用的語音。


圖1.ReadPlease 2003應用程式:這個Windows應用程式可能讀任何從剪貼簿中粘貼到編輯欄位中的文本。


  你需要什麼呢?Visual Studio.NET 2003,微軟語音應用程式SDK 1.1

  點擊"Tools"菜單,然後選擇"Options"允許你進一步用該TTS編輯器進行實驗,例如,你可以調整在段落之間的語音引擎的暫停時間長度。升級到ReadPlease Plus版本將可以使你存取另外的一個發音編輯器選項,它讓你指定怎樣讀一個特別的詞。ReadPlease Plus還包括一個你可以停靠在你的Windows案頭頂部的任務條。因此,你可以快速地從任何基於檔案的應用程式拖動文本到工作列上並讓它讀給你聽。

  預設狀態下,該ReadPlease應用程式使用內建的微軟語音(Mark,Mike,Sam或Marilyn)。但是,你可以選擇性地購買更高品質的AT&T Natural Voices,例如在AT&T Natural Voices Starter Pack中提供的語音。該Starter包包括8K版本的"Mike"和"Crystal",它們二者聽起來都優於預設的微軟聲音。

  作者注: 術語8K意味著,該抽樣頻率用於建立發生在每秒8000位的WAV檔案。另外一種格式是16k,它可以產生一種更清晰和更為自然的聽覺效果。基本上,樣本率越高,聲音品質好越。

  二、 微軟語音應用程式開發包SDK 1.1

  在2004年,微軟發行了 Microsoft Speech Server,還有一個免費的SDK允許你開發基於Web的運行於Speech Server上的語音程式。可以使用SDK來構建電話或只發聲的應用程式-其中的電腦對使用者的互動是使用電話來實現的。同時你還可以構建多模態應用程式,其中由使用者選擇使用語音還是傳統型Web控制項作為輸入。

  微軟TTS引擎通過把單詞拆分成音素來合成文本。音素是人類語言的基本單位。它們代表一組"音",正是由它們構成單詞的聲音。然後由該TTS引擎分析提取的音素並且把它們轉換成符號用來產生數字音頻語音。

  你可以使用隨同本文的可下載的應用程式範例(ExploringTextToSpeech.csproj)來實驗微軟TTS引擎可配置的方面。該多模態應用程式套件組合含一個Web頁面(見圖2),你可以在其中輸入一些文本。然後,可以點擊一個按鈕來以下面方式聽取文本。

  作者註:在要被播放的文本無法提前知道的情況下,使用一TTS引擎是不可避免的;然而,你可以由錄製音頻來得到更好的音質。當音頻品質是關鍵的時,你可以使用微軟語音應用程式軟體開發工具箱(SASDK)來錄製音頻。例如,你可能想使用錄製的音頻來提示使用者資訊。被記錄的音頻可以被分解成一系列的提示,它們在運行時刻再被串連起來。

  · Speak Text Normally-提供一種測試基準

  · Say as an Acronym-文本"ASP"被發作"A.S.P."

  · Say as Name-Mr.John Doe被發作"Mister John Doe"

  · Say As Date-在這種情況中,日期格式化為:月,日,年

  · Say as Web Address-在這種情況中,文字格式設定化為一個統一資源識別項(URI)

  · Say as Digits-作為文本輸入的數字被發作一系列的位

  · High Pitch/Slow Rate-文本以高音調慢速發出。

  · Rate Fast/Volume Loud-文本以快速高音發出。

  · Low Pitch/Volume Soft-文本以低音調適中音量發出。

[1] [2] 下一頁  



聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.