(作者:曹文龍、李維森) 目前,Web伺服器的發展有三個主要趨勢: 1.從HTML到XML(Extensible Markup Language-可延伸標記語言 (XML)) HTML被稱為“第一代Web語言”,如前面的介紹,HTML作為Web的開發語言,對Web應用的發展起到了關鍵性的作用。但是HTML有一個致命的缺點:只適合於人與電腦的交流,不適合電腦與電腦的交流。HTML通過大量的標記來定義文檔內容的表現方式,它僅僅描述了應如何在Web瀏覽器頁面上布置文字、圖形,並沒有對Internet的資訊含義本身進行描述,而資訊又是Web應用中最重要的內容。通過HTML表現出來的文字、圖形內容很容易被人理解,但卻不利於電腦程式去理解。另外,HTML的另一個問題就是它的標記集合是固定的,使用者不能根據自己的需要增加標記;而且各種瀏覽器的規格不盡相同,要使我們用HTML做的網頁能夠被所有瀏覽器正常顯示,我們只能夠使用W3C(全球資訊網協會)規定的標記來建立網頁。 正如前面所說,Web伺服器向Web瀏覽器提供的資訊都是來自有一定結構的資料庫,在資料庫裡,為了檢索和管理的方便,資訊按照它本身的意義(如姓名、年齡、工作單位等)被存放在相應的欄位裡,一旦這些資料被調出來,經過CGI、ASP、JSP、PHP等轉換成HTML後,其原來的意義無法轉移到HTML標記中來,使用者也就無法按照資訊本來的意義去閱讀。並且,由於作業系統以及資料庫的不同,不同的系統及應用程式層面之間要想互相理解對方的資料格式是相當困難的。這就需要一種新技術或標準能夠將最初儲存在資料庫伺服器中的未經處理資料結構在不同的系統層面共用。這種新技術就是XML。 使用XML可以解決上述的難題。W3C對XML作了如下描述:“XML描述了一類被稱為XML文檔的資料對象,並部分描述了處理它們的電腦程式的行為。XML是SGML的一個應用執行個體。從結構上說,XML文檔遵從SGML文檔標準。”同HTML一樣,XML也是一種基於文本的標記語言,都是從SGML(Standard Generalize Markup Language,標準通用標記語言 (SGML))發展而來,二者的不同在於:XML可以讓我們根據要表現的文檔,自由地定義標記來表現具有實際意義的文檔內容,例如,我們可以定義〈文檔名稱〉〈/文檔名稱〉這樣具有實際意義的標記。而且XML不像HTML那樣具有固定的標記集合,它實際上是一種定義語言的語言,也就是說使用XML的使用者可以定義無窮的標記來描述文檔中的任何資料元素,將文檔的內容組織成豐富的完整的資訊體系。總起來說,XML具有四大特點:便於儲存的資料格式、可擴充性、高度結構化以及方便的網路傳輸,這些特點為我們建立開放、高效、可擴充、個人化的Web應用提供了一個嶄新的起點。 2.從有線到無線 電子商務正在從台式機向著更為廣泛的無線裝置發展,Cahners In-Stat市場分析家預測,世界範圍內的無線使用者的人數將會從2000年的2.71億增加到2004年的13億。Aberdeen集團的研究主任Darcy Fowkes認為,採用無線方式進行電子商務的優勢並不僅僅在於方便,它還可以節約公司的財力,而且,隨處工作能使工作更加高效。 然而,由於多種無線網路類型、標記語言、協議和無線裝置並存的複雜情況,使得網路內容和資料轉換成能夠被無線裝置所識別的格式並不容易。目前,許多企業都在致力於開發能夠把應用程式以及互連網內容擴充到無線裝置上的產品。 例如,IBM新版本的WebSphere Transcoding Publisher 3.5增加和改進了許多新的特性,可以將企業內部網上的資料翻譯到多種無線裝置上。該版本中新的特性包括對更多的無線裝置、資料格式的支援,以及語言翻譯功能。它基於Java架構,能把用HTML和XML等標記語言編寫的應用程式和資料轉換成WML、HDML(Handheld Device Markup Language)和iMode等無線裝置所能識別的格式,這樣,通過手持功能就可以訪問互連網上的資訊。 無線裝置廠商Mobilize也推出了Mobilize Commerce產品,協助企業進入無線網路。該軟體可以通過無線串連的方式訪問企業的內部系統,遠程地實現訂單發送,並進行確認。Mobilize Commerce可以充分利用XML對資訊進行格式轉換,以適合於無線裝置,這些無線裝置包括膝上型電腦、個人數位助理、無線電話、網路電話和雙向傳呼等。 3.從無聲到有聲 世界上現在有十億個電話終端,有超過2億的行動電話。而就人自身的交流習慣來看,人們也更願意利用聽和說的口頭的方式進行交流。 目前,文字轉換語音器(TTS,Text to Speech)的研究工作已經取得了很大的進步,實現了自動的語言分析理解,並允許TTS的使用者增加更多的韻律、音調在講話中,使TTS系統的發聲更接近人聲。在自動語音辨識系統(ASR)領域裡,自動語音辨識系統在從整個詞的模仿匹配,向音素層次的識別系統方向發展。自動語音辨識系統的詞彙表由一個基於聲音片斷的字母表構成,而且這種詞彙表是受不同語言限制的。基於這種方式,在一個寬廣的聲音行列裡,講話能被識別系統發現和揀選出來,並加以識別。並且,在識別一個詞的時候,每一個音素將從系統的輸入中揀選出來,拼接組合後與已經有的音素和詞語模板進行比較,來產生需要的模板。音素的識別大大減輕了ASR對講話者的依賴性,並且使得它非常容易去建立大型的和容易修改的語音辨識字典,從而滿足不同應用市場的需求。 Web語音發展的另一方面是VoiceXML(Voice Extensible Markup Language-語音可延伸標記語言 (XML))的進展。VoiceXML的主要目標是要將Web上已有的大量應用、豐富的內容,讓互動式語音介面也能夠全部享受。Web伺服器處理一個來自用戶端應用的請求,這一請求經過了VoiceXML解釋程式和VoiceXML解釋程式語境處理,作為響應,伺服器產生出VoiceXML檔案,在回複當中,要經過VoiceXML解釋程式的處理。VoiceXML 1.0規範基於XML,為語音和電話應用的開發人員、服務提供者和裝置製造商提供了一個智能化的API。VoiceXML的標準化將簡化Web上具有語音響應服務的個人化介面的建立,使人們能夠通過語音和電話訪問網站上的資訊和服務,像今天通過CGI指令碼一樣檢索中樞資料庫,訪問企業內部網,製造新的語音訪問裝置。VoiceXML的執行平台上面載入了相應的軟體和硬體,例如,ASR、TTS,從而實現語音的識別以及文本和語音之間的轉化。2000年5月23日,W3C接受了語音可延伸標記語言 (XML)VoiceXML 1.0作為執行個體。 目前,IBM、Nokia、Lucent、Motorola等著名廠商都已經開發出相應支援VoiceXML的產品,但現在的ASR和TTS系統大多還不能支援中文。
http://www.bkjia.com/PHPjc/532196.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/532196.htmlTechArticle(作者:曹文龍、李維森) 目前,Web伺服器的發展有三個主要趨勢: 1.從HTML到XML(Extensible Markup Language-可延伸標記語言 (XML)) HTML被稱為“第...