電腦面前的你,是否也希望能讓電腦聽命於你? 當你累的時候,只需說一聲“我累了”,電腦就會放著優雅的輕音樂來讓你放鬆。 或許你希望你在百忙之中,能讓電腦郎讀最新的NBA比分賽況….一切都是那麼愜意。
在此告訴你,不要灰心,我們真的可以做一個。
做一個語音辨識? 我相信很多人到這裡會有兩個心態,一是好奇,二是避之千裡。
其實不然,你可以不用懂太多的編程技能,你甚至也可以不用懂自然語言處理技術,這篇文章雖然實現了語音操控但是絕沒有你們想象的那麼複雜。 如果僅僅把語音辨識作為一個實現了的介面的話,剩下的邏輯就僅僅是IF-ELSE這些簡單的元素了。
實現語音操控的原理
語音操控分為 語音辨識和語音朗讀兩部分。
這兩部分本來是需要自然語言處理技能相關知識以及一系列極其複雜的演算法才能搞定,可是這篇文章將會跳過此處,如果你只是對演算法和自然語言學感興趣的話,就只有請您移步了,下面沒有一個字會講述到這些內容。
早在上世紀90年代的時候,IBM就推出了一款極為強大的語音辨識系統-vio voice , 而其後相關產品層出不窮,不斷的進化和演變著。 我們這裡將會使用SAPI實現語音模組。
什麼是SAPI?
SAPI是微軟Speech API , 是微軟公司推出的語音介面,而細心的人會發現從WINXP開始,系統上就已經有語音辨識的功能了,可是用武之地相當之少,他並沒有給出一些人性化的自訂方案,僅有的語音操控命令顯得相當雞脅。 那麼這篇文章的任務就是利用SAPI進行個人化的語音辨識。
準備階段,你至少需要安裝以下的工具:
Python2.7 http://www.python.org/
強烈建詭使用2.7,至今Python2.7擁有Python系列為數最多的工具和應用支援,同時也相對比較穩定。
Win32Com http://starship.python.net/~skippy/win32/Downloads.html
Python Win32增強工具,可以使Python調用WIN32COM介面,這個工具的出現使得Python變得無比強大
Speech.py http://pypi.python.org/pypi/speech/
這個是極為精簡的封裝模組,此處為可選項,當然我不建議重複造輪子,還是下吧,目前只支援Python2.6,但不用灰心,Python2.6和Python2.7的代碼是相容,不會有異常。
安裝過程請依至上而下的順序。
開發階段
當你安裝了上述的相關工具後,你就可以進行開發了:
先進行一個簡單的環境調試:
複製代碼 代碼如下:
whileTrue:
phrase =speech.input()
speech.say("You said %s"%phrase)
ifphrase =="turn off":
break
上述代碼是啟動語音辨識器,同時系統將會重複你所錄入的語音,當遇到“turn off”時,就會自動關閉識別系統。
如果你通過測試無誤的話,我們就可以開始進行擴充開發了。
1. 定義中文語義庫
複製代碼 代碼如下:
closeMainSystem ="關閉人機互動"
openEclipse ="我要寫程式"
listenMusic ="我好累啊"
blog ="看部落格"
php ="php"
java ="JAVA"
2. 定義相關語義操作邏輯
複製代碼 代碼如下:
defcallback(phrase, listener):
print(": %s"%phrase)
ifphrase ==closeMainSystem:
speech.say("Goodbye. 人機互動即將關閉,謝謝使用")
listener.stoplistening()
sys.exit()
elifphrase ==openEclipse:
speech.say("請問您要寫PYTHON還是JAVA程式?")
speech.listenforanything(callback)
elifphrase ==listenMusic:
speech.say("即將為你啟動豆瓣電台")
webbrowser.open_new("http://douban.fm/")
elifphrase ==blog:
speech.say("即將進入Dreamforce.me")
webbrowser.open_new("http://dreamforce.me/")
elifphrase ==php:
speech.say("啟動PHP編寫器")
os.popen("E:\IDE\php_eclipse\eclipse\eclipse.exe")
elifphrase ==php:
speech.say("啟動JAVA編寫器")
os.popen("E:\IDE\php_eclipse\eclipse\eclipse.exe")
其中,os.popen是非同步開啟程式,此操作不會單獨開啟一個SHELL視窗,也不會阻塞當前進程。
speech.say() 是調用SAPI進行參數朗讀。
webbrowser.open_new()是開啟網頁。
3.程式運行主體搭建
複製代碼 代碼如下:
listener =speech.listenforanything(callback)
whilelistener.islistening():
text =input()
iftext =="不要語音了":
listener.stoplistening()
sys.exit()
else:
speech.say(text)
此段為運行主體,大意是開啟語音監聽,同時支援終端輸入模式。如果你嗓子啞了的話,也可以打字來實現,哈哈~~