摘要: 微軟英庫拼音輸入法開發團隊自述,我們為什麼要開發一個新的中文輸入法 輸入法的歷史和今日 中文輸入法有一段漫長的歷史,在個人電腦遠遠還未問世之前(至少從上世紀四十年代
微軟英庫拼音輸入法開發團隊自述,「我們為什麼要開發一個新的中文輸入法」
輸入法的歷史和今日
中文輸入法有一段漫長的歷史,在個人電腦遠遠還未問世之前(至少從上世紀四十年代開始),發明家們就開始搞電子和機械中文輸入法。 而伴隨著PC的問世和普及,我們也迎來了中文輸入法技術革新的浪潮。 中文輸入法技術的最終目標是輸入效率,各家競爭的焦點集中在性能、準確率和易用性方面。 「輸入法」(Input Method Editor,或IME)這個術語是Windows 95首次使用的,Windows 95還附帶了微軟拼音輸入法第一版(基於拼音的輸入也是如今中文輸入法最主流的形式)。 自Windows 95以來,這18年裡,輸入法界可謂風起雲湧,無論是在技術、還是競爭方面。
如今的輸入法市場競爭非常激烈,本土和國際軟體公司都參與了角逐,這其中尤數提供線上服務的公司。 他們參與的理由很簡單:對於絕大多數中國使用者來說,輸入法是一個「入口」。 在過去的十年中,隨著網路和雲計算的興起,基於雲的輸入法更是給眾多公司打開了線上服務業務方面的機會。 人人都希望在這個6億中國互聯網使用者的入口之爭上能夠分一杯羹,這其中的巨大商機是不言而喻的。
問題、趨勢和機會
人們可能會疑惑:既然微軟已經有了一款輸入法產品(微軟拼音輸入法),為什麼微軟亞洲研究院還要做這款叫做「英庫拼音輸入法」的新輸入法呢?更何況是在輸入法市場貌似」天下已分、大局已定」的情況下。
答案其實也很簡單,那就是我們認為中文輸入法的癥結實際遠未解決。 隨著互聯網時代的崛起,我們已經越來越多地發現,中文使用者在網路時代使用語言交流的習慣和趨勢在悄然發生重大的變化,而這也催生了一些傳統的中文輸入法無法滿足的使用需求。 此外,再加上自然語言處理領域的研究突破,我們相信迎來下一代中文輸入法核心技術的時候終於到了。
先說網路時代產生的新的使用者需求。 例如我們注意到,中文使用者使用英語的頻率逐年增高,中英混雜的使用也在迅速增多。 如今,大約有3.25億中國人在學習英語。 到2025年,會說英語的中國人預計將超過全世界其他地方的英語母語消費者人數的總和。
然而,雖然有如此多的人在學習和使用英語,我們卻發現中文輸入法軟體裡面能夠提供有效和友好的英文輸入協助工具的少之又少。 我們認為,對於中國使用者來說,利用輸入法來輔助英文輸入是最佳方案,因為我們已然對輸入法這個東西很熟悉,而且經由輸入法,我們可以在背後利用上很多相關的技術。
另一方面,英文世界的語言也在急速發生變化,有語言跟蹤系統估計大約每98分鐘就有一個英文新詞被創造出來。 這些詞大多根本就沒有常見的中文對應翻譯。 而在一些專業領域這一現象顯得尤其明顯,舉個例子,軟體技術書籍。 你隨便拿起一本軟體技術書籍都可以看到一摞英文術語。 如今英語已經是中國人日常用語的一部分,在很多領域,甚至是必不可少的。 既然如此,難道我們的中文輸入法不應該跟上中英混合的趨勢,提供更好、更流暢、新鮮和準確的中英混合輸入體驗嗎?
除此之外,促使我們做英庫拼音輸入法的還有一個很重要的原因。 如今我們線上溝通的時候,我們會發現,溝通的內容早已經超越了簡單的文本,進而包含圖片、視頻、音樂、地圖等等「富媒體」內容。 上百萬的網路使用者每天在交流、發微博、寫博客,甚至在文檔中使用這些非文本類內容。 而值得注意的是,這些內容往往是經由搜索而來。
那麼,既然如此,為什麼當我們需要粘貼發送它們的時候,總得離開當前輸入的上下文,跑過去打開一個瀏覽器,輸入網址,輸入搜索關鍵字,完了之後再把搜索的結果(圖片、地圖等等)拷貝粘貼回來呢?這一通來去完全影響了輸入的流暢體驗, 打斷了我們寶貴的注意力。 為什麼我們不能直接在輸入法裡面完成這整個的流程呢?
這種無需離開上下文的流暢體驗正是高效輸入的靈魂。 現在我們已經知道,主流的輸入法都有所謂的「雲候選詞」,也就是說每個輸入框都相當於是搜索框,既然如此,為什麼不把搜索的內容從純文字拓展到其他形式的富媒體內容呢?想像一下,一旦這個成為現實, 整個互聯網上可搜索的內容都將在你的指尖上。
除了上面提到的這些因素之外,我們還相信,輸入法的核心技術本身也將迎來一個新的紀元:更精准、資料更相關、而且更快。 就我們而言,我們對兩個核心技術領域很感興趣:一是通過新的演算法來驅動輸入法的核心引擎,另一個就是通過新的網路挖掘技術來提升資料的新鮮度和品質。 借助微軟亞洲研究院頂尖的自然語言處理研究成果,我們相信我們的輸入法有著得天獨厚的競爭優勢。
輸入法和創新
那麼,為什麼微軟亞洲研究院要做一款新的輸入法?首先我們對於任何技術挑戰都有興趣,而從零開始打造一款先進的輸入法並在一年內發佈,對我們而言正是這樣一項挑戰。 此外,好奇心是我們的源動力,我們對於是否能解決我們觀察到的當今輸入法面臨的種種問題充滿了好奇,並願意嘗試利用新穎的技術、過硬的工程能力和創新的點子來解決這些問題。 我們所設想的輸入法觸及電腦科學中的眾多研究領域:自然語言處理、網路搜索和資料採礦、人機交互、語音處理、機器學習、雲計算,圖像和媒體,等等。
當我們把目光投向輸入法的歷史和現狀,我們注意到輸入法的創新亦難免面臨「創新者的窘境」(由哈佛商學院的Clayton M. Christensen提出)。 其背後的原因是,在一款成功的輸入法軟體背後是極為複雜的技術,而且軟體越創新也越有可能成功。 然而,「創新者的窘境」指出:隨著時間推移,成功的、成熟的和複雜的產品最終將獲得巨大的使用者量,軟體的版本經過多年的反覆運算,其中必然積累各個層面的技術複雜性,在此之上重新創新將不可避免地帶來大的風險和代價。 因而實際發生的往往是所謂的「持續創新」。 我們認為當今市場上的輸入法創新大多屬於此類。
已成功者必須輕裝上陣從零開始,著眼產品而非市場,才能最終成為解決「創新者的窘境」的良方,而這種努力如果成功,所帶來的成果便被稱為「破壞性創新」(disruptive innovation)。 後者正是我們做英庫拼音輸入法專案的本意:基於研究、跳脫出產品週期約束、著眼新穎解決方案和新的使用者痛點。
成果
到目前為止,英庫拼音輸入法專案的成果很令人振奮。 我們的自然語言處理研究人員從本質上重新建模了中文輸入,我們將輸入理解為從拼音到漢字的一個翻譯過程,跟英文到中文的翻譯類似。 這一切入角度使得我們可以運用微軟亞洲研究院耕耘十多年的統計機器翻譯領域的方法來解決中文輸入問題。
另外英庫拼音輸入法包含中英混輸和英文輔助模式。 它內置有對機器翻譯、單詞對齊,以及必應詞典(前身為英庫詞典)所獨有的「phonetic search」功能(例如敲「fiziks」能夠搜到「physics」,就如同英文的「拼音」一樣)。 這些功能的淵源可以追溯到我們研究院十多年來在中英自然語言處理方面的技術研究儲備。
中英混輸
最後,我們對於非文本類內容的輸入也有創新性的支援。 我們將其稱為「富候選(Rich Candidates)」(對應「文本候選」),它讓我們的日常輸入超出枯燥的文本。 我們的靈感來源於搜尋引擎技術,我們知道搜尋引擎有「即時問答」,此為隱式搜索,還有「垂直搜索」,則對應于顯式搜索。 舉兩個例子,如果我們在聊天的時候輸入「嘿嘿」,那麼很可能你希望表達一個良好的心情,於是我們的輸入法能夠自動給出一些例如圖片、表情之類的候選可供直接插入對話。 而顯式搜索則是使用者手動地選擇搜索哪種類型的內容:中英翻譯、顏文字、地圖等等。
團隊背景及軟體發展哲學
我們的團隊從一開始就是多部門合作:研究人員和產品開發人員協同工作。 中文輸入法產品部門和微軟亞洲研究院走到一起,最終開發了英庫拼音輸入法。 來自產品部門的説明使得我們的軟體發展流程相當順暢,少有的直接從實驗室中走出的產品。
我本人作為這個專案的開發主管,大家一定會感到比較奇怪——為什麼竟然由一個老外來帶領開發一款中文輸入法?答案是,雖然我並非中國人,但我對於中國的語言文化有著真誠的熱愛。 雖然我不是中國人,但我卻有顆中國心。 為什麼這麼說呢?我的童年是在紐約的法拉盛度過的,法拉盛吸引了很多亞裔移民,有著濃厚的亞洲味道。 我從小耳濡目染就受到中文和中國文化的影響。
對於能夠帶領開發英庫拼音輸入法,我感到極大的喜悅。 另一方面,我相信,作為中文輸入法的「局外人」我也能夠給我們的團隊帶來一些全新的視角。 另外,由於我之前也帶領了英庫(翻譯和語言學習)專案,而從詞典到輸入法,在自然語言處理方面一脈相承,所以我也就自然而然地成為了這個專案的開發主管。
英庫拼音輸入法專案對我來說是一個思維轉變,必須從現有輸入法的窠臼中跳出來。 我們必須跟業界的其他參與者不同,必須大膽、不落俗套地去解決面臨的挑戰。 除此之外另一個要素就是團隊必須由頂尖的軟體工程師、研究人員、設計師構成。 而事實上,我們也的確集結了一群最牛的人——具有改造世界的願望和能力的人——來打造最好的輸入法技術。
我們的開發哲學很簡單:多發佈,從發佈中學習和改進。 我們的改進主要基於服務端智慧和資料自動採集分析,而非傳統的討論群組(focus group)形式。 我們的方法叫做「以實踐為驅動的研究」(Deployment-Driven Research),這就像是研究領域的敏捷方法。
電腦科學實驗室通常面臨的一個問題就是跟最終實際使用者聯繫得不是那麼緊密。 這除了會導致技術進入市場的時間延遲之外,缺少實際使用者回饋也會導致研究滯慢或偏向。 我們的「以實踐為驅動的研究」哲學正是為了針對這個問題,所以我們的產品很快就走向市場,從中得到的回饋給我們的團隊帶來了極大的鼓舞,並且決定了我們把時間和能量投入到哪些方面,後者非常重要,因為基礎研究的難點之一就是如何選擇, 而「以實踐為驅動的研究」給了我們引路明燈。
對未來的沉思
未來從歷史開始。 歷史上,輸入法的「破壞性創新」是基於使用者體驗和輸入效率的突破。 從研究的角度來講,例如人機交互,我們能夠看到,「自然使用者介面」是未來的主題。 從這個意義上來說,輸入法的未來也可以想見將會是在使用者體驗上越來越「自然而然」地、符合直覺地為使用者在各種輸入場景下的需求提供豐富的體驗。 完美的輸入法應該是讓人無論是在什麼輸入場景,希望輸入什麼類型的內容的情況下,都感到流暢無痕、沒有任何的思維阻滯和負擔。
工業界和研究界的另一個交匯點就是「大資料」,以及利用機器學習技術來建造能夠處理大資料的輸入系統。 最終,對於使用者來說,這就意味著更少的敲擊帶來更多的輸入。 隨著行動裝置以一往無前的迅猛勢態發展,如何在行動裝置上實現更有效率的輸入體驗不僅是一個使用者體驗問題,也是一個核心技術問題。 從這個角度來說,我們非常期待在Haptics(觸覺)、自然使用者介面、多模型融合研究方面的進展能夠帶來更成熟的模型,從而能夠充分利用大量的輸入上下文資訊。
最後,就開發趨勢而言,我們認為Apps(擴展應用)也會在輸入法的未來扮演重要角色。 也就是說,輸入法會被視為一個平臺,而不是一個各種複雜技術錯綜複雜糾結在一起的一團整體,打造輸入法應用開發平臺必能使得無數開發者為輸入法的未來加速發展提供強大的合力。