編者按:微軟研究院年度內最大的節日——微軟技術節(TechFest 2012)近期隆重開幕。本屆技術節以“自然人機互動”和“大資料”為焦點,微軟亞洲研究院帶去了近40項最新技術,其中“將單一語言的文語轉化變為混合語言”項目就是與資料互動的典型。下面就讓我們一窺究竟,看看如何從大資料中提煉大智慧吧!
(圖片來自於互連網)
在技術節上,來自微軟亞洲研究院的近40項創新技術獲得了來自微軟產品部門和各界嘉賓的關注。微軟亞洲研究院院長洪小文博士表示,“作為微軟在海外最大的基礎研究機構,微軟亞洲研究院始終堅持通過技術創新推動整個電腦科學領域的發展,並協助改善人們的計算體驗。我們希望能有更多微軟亞洲研究院的創新成果轉化到微軟產品中,加速實現這些激動人心的計算體驗。”
在微軟亞洲研究院展示的技術中,“將單一語言的文語轉化變為混合語言”技術可利用一名說話人的單一語言錄音合成出不同語言的訓練語料庫,以此構建統計模型的多語言的文語轉換系統;“高保真面部動畫捕捉”技術充分利用最先進的動作捕捉技術和3D掃描技術,以擷取具有逼真的動態皺紋和精細的面部細節的高保真3D面部表情;“城市地區建築物自動解析”技術能夠讓使用者僅憑一張映像就能展開市區3D之旅;“Windows
Phone 和Kinect上的語言學習遊戲”則側重於如何在不同微軟產品平台上獲得愉快的“寓教於樂”的語言學習體驗。下面就讓我們來看看其中三個精彩的項目吧!
將單一語言的文語轉化變為混合語言
語音使用者介面需要利用文語轉化(text-to-speech)合成語音技術來“說出”語音合成的另一種語言,有時人們甚至希望用混合的不同語言來表達。例如,一個人在國外,而他並不熟悉當地語言,這時如果導航儀能夠用混合語言的模式發出指令,就會很方便,也就是說,導航儀指令能夠將街道名稱等專有名詞以當地語言的形式表達,而路線方向則用這個人的母語來表達。混合語言文語轉化要求使用者能夠同時標準說出這兩種語言,但是通常這樣的人才很難找到。
該項目展示了一種新方法,可將使用者所說的話翻譯成另一種語言播放出來,並保留使用者自己說話時所具有的口音、音色和語調,聽起來就像本人親自說的一樣。微軟首席研究官裡克•雷斯特示範了這款軟體的功能,他說了一段英語,然後利用這款軟體把這段話翻譯成了西班牙語、意大利語和中文普通話播放了出來。結果,這三種語言的發音聽起來非常像拉希德本人。
使用這個語音翻譯系統,使用者需要進行約一個小時的訓練,為自己的語音建模,並與微軟的標準文字-語音模式融為一體,用於對目標語言的翻譯。以微軟的標準西班牙語模式為例,標準西班牙語模式有一個“S”的發音,使用者訓練後,就可以用自己發的“S”音來替代。按照這樣的步驟,對微軟西班牙語文字-語音模式中的所有單個音素進行處理。目前,這種方法可以實現微軟語音平台支援的所有26種語言間的互譯,這些語言涵蓋了全球多數重要的語言。更多項目介紹和樣本,請看http://research.microsoft.com/en-us/projects/mixedlangtts/default.aspx
高保真面部動畫捕捉
“高保真面部動畫捕捉”展示了一種高保真3D面部表現的新方法,用來擷取逼真的動態皺紋和精細的面部細節。該方法充分利用最先進的動作捕捉技術和3D掃描技術,以擷取面部表現。該捕獲面部表現的系統兼具靜態面部掃描系統的空間解析度,以及動態捕捉系統的採集速度。
現有的臉部和表情捕捉手段包括基於標記的動作捕獲和高解析度掃描器。在基於標記的技術中,需要將小反光點固定在被攝者的臉上,當他的表情變化時,這些反光點之間的相對位置變化就會被記錄在視頻上。這種方法能夠準確地捕捉不斷變化的表情,但空間解析度較低,無法捕捉表情變化的細節。另一方面,高解析度掃描器能夠捕捉到人臉的所有細微之處,甚至包括細小的皺紋和皮膚毛孔,但通常只能適用於靜態姿勢。經過專門配置的高速攝影機也可用於捕捉面部表情,但它們價格昂貴,而且只能提供較少的面部細節。
基於這兩種捕捉技術的特點,研究團隊試圖將基於標記系統的動作捕捉精準度與高解析度掃描器的豐富細節結合起來。研究人員還希望從計算的角度,提升捕捉和識別的效率,這樣就把重建精確面部表情所需的資料量減到最小。
下一步,研究小組利用雷射掃描器捕捉高保真的面部掃描。然後,將這些掃描與基於標記的面部資料中的對應畫幅相匹配。他們使用新的演算法,實現了面部掃描的互相配准。最後,研究小組綜合運用動作捕捉資訊和面部掃描資訊,重建演員當時所做的實際表情,其所產生的映像既捕捉到了臉上的“大”運動,又捕捉到了皮膚紋理和皮膚運動的精緻細節。
Windows Phone 7和Kinect上的語言學習遊戲
“Windows Phone 7和Kinect上的語言學習遊戲”是一個語言學習項目,側重於如何在各個微軟平台上促進愉快的“寓教於樂”體驗:
- SpatialEase:用一個Xbox 360 Kinect遊戲學習語言,這是一種將語言與思想和行動相聯絡的學習方式。學習者必須迅速理解第二種語言的命令,例如對“把左手向右移動”這句話的翻譯,同時相應地移動自己的身體。
- Tip Tap Tones:這是一個用Windows手機遊戲學習中文發音的遊戲——一種高效的對耳朵和大腦進行再培訓的手機遊戲,能夠快速而準確地感知帶有聲調的中文音節。
- Polyword Flashcards:這是具備綜合性技能遊戲的“網路抽認卡”。在我們的適應性學習演算法——已轉移到了Bing 字典,在其基礎上,我們建立了一個HTML5平台,用於深度個人化的學習,並將語言學習、遊戲和探索融為一體。
請看詳細項目介紹http://research.microsoft.com/en-us/projects/languagelearninggames/
更多2012微軟技術節的精彩內容,請關注http://research.microsoft.com/en-us/um/redmond/events/techfest2012/default.aspx
相關閱讀:
記裡克•雷斯特2012微軟技術節開幕演講
自然人機互動與大資料——2012微軟技術節構想未來計算願景
銳意探索,創造未來——熱烈慶祝微軟研究院成立20周年
微軟研究院將夢想變為現實的20年
___________________________________________________________________________________