互連網
映像檢索技術的兩個階段
隨著互連網的高速發展,網上的多媒體資訊也急劇增加,因此人們對多媒體資訊的檢索需求也就隨之而來。傳統的資訊檢索主要集中於文字的檢索,在多媒體方面的研究並不是很多。互連網上的多媒體以映像為主,因此映像的檢索就成為了目前研究的熱點。
互連網上映像的檢索經曆了兩個階段:第一階段是以關鍵字為基礎的檢索。第二階段是以映像自身的內容為基礎的檢索。
在基於關鍵字的映像檢索系統中,需要先對所有的映像進行關鍵字標註,然後才能使用全文檢索索引技術對映像進行搜尋。這種方法存在兩個方面的問題:一是這種方法需要較多的人工參與,而且隨著映像數目的增加,這種方法很難實現;第二個問題在於映像所包含的資訊量龐大,不同的人對於同一張映像的理解也不相同,這就導致對映像的標註沒有一個統一的標準,因而檢索的結果不能很好地符合使用者的需求。
基於內容的檢索不同於基於關鍵字的檢索,它不需要過多的人工參與,而利用映像自身的特徵(如顏色、紋理、形狀等)來進行檢索,具有較強的客觀性。但是,由於這些特徵並不代表映像真正的語義資訊,基於內容的檢索結果往往不令人滿意。因此目前大多數系統還是基於關鍵字的檢索,如AltaVista、Yahoo!、Ditto等。
為此,我們提出了一種在互連網上進行映像檢索的新方法,它把基於關鍵字的檢索和基於內容的檢索相結合,並引入了使用者的相關反饋來最佳化檢索結果。在下文中我們將介紹如何在互連網上收集映像、建立索引以及進行檢索。並將介紹如何結合使用者的互動,利用相關反饋來提高檢索的結果。最後,我們將對映像檢索給出總結。
互連網上的映像檢索
要建立互連網上的映像檢索系統,需要解決三個方面的問題。首先是如何從互連網上擷取映像,其次是如何對擷取的映像建立相應的索引,最後是如何根據使用者的需求在映像資料庫中進行檢索。
1.映像的擷取
互連網上存在各式各樣的映像,我們需要收集一些使用者最感興趣的、具有代表性的映像以供使用者使用。首先,根據目前一些流行的搜尋引擎的分類,建立相應的映像分類的階層;然後針對每個類別選擇一些熱門的、具有代表性的網站作為候選。例如在體育方面的http://www.nba.com,政治方面的http://www.whitehouse.gov,娛樂方面的http://www.disney.com,新聞方面的http://www.cnn.com等網站均被選擇成為下載映像的網站。
然後,設計一個高效率的軟體工具(Crawler),針對選定的代表性網站自動進行映像的收集。網站內所有的頁面都將送給頁面分析器進行分析,頁面內所有的映像都將以連結的方式儲存到相應的資料庫中。同時,一些啟發學習法資訊,如映像的尺寸、檔案類型、檔案名稱、映像的顏色長條圖等,將用來對映像進行簡單的分類,把廣告條、背景、表徵圖、按鈕等無語義資訊的映像與使用者真正需要的映像區別開,以供使用者查詢。
2.映像特徵的抽取及索引
對收集到的映像,需要進行特徵抽取,並建立相應的索引,以提高檢索的效率。映像的特徵分為兩種,一種是映像的低層特徵,如映像的顏色、紋理及其形狀等。另外一類特徵則是映像的語義特徵。
對於映像的低層特徵,主要採用的是映像的顏色、紋理及其形狀等特徵。其中,顏色特徵和映像的大小、方向無關,而且對映像的背景顏色不敏感,因此顏色特徵被廣泛應用於映像檢索。顏色特徵中包括顏色長條圖、顏色相關圖、顏色矩等。紋理特徵代表了物體的視覺模式,它包含了物體表面的組織圖以及與周圍環境之間的關係。常用的方法有相關矩陣法,粗糙度、對比等紋理表示方法,以及小波變換等。形狀特徵則包括兩種,一種是基於邊界的形狀特徵,另外一種則是基於地區的形狀特徵。最成功的表示方法有傅利葉變換和不變矩等。這些低層的特徵將通過各種方法抽取出來,並形成一組特徵向量,建立相關索引並儲存到資料庫中。
由於低層的特徵並不直接代表映像的語義資訊,因此我們還將抽取映像的語義特徵。我們採用在網頁中與映像相關的文字資訊來表徵映像的語義特徵,其中使用到的相關資訊有:
映像的檔案名稱及其網址 大多數作者直接通過檔案名稱來表示映像的內容,如redflower.jpg、cat.jpg、clinton.jpg等,就直接把映像的內容體現在檔案名稱之中。同時,映像的網址資訊也提供了一些相關的語義資訊,如anim_birds.jpg就提供了映像所屬的類別資訊及其語義資訊。
映像的替代文字(Alternate Text) 替代文字在網頁中通常用來表示映像的語義資訊,而且也是最為準確的一個特徵。不過,並不是所有的作者都願意提供這個資訊。
映像周圍的文字(Surrounding Text) 在網頁中映像周圍的文字是最可能表達映像所有包含的內容的,雖然有些文字可能與映像並不相關,不過這些文字在一定程度上還是表達了映像的語義資訊,因此被選擇成為語義特徵之一。
映像所在頁面的標題 有些映像用來加強作者的意圖,因此有些映像的內容同頁面的標題內容直接相關。頁面的標題也就成為語義特徵之一。
映像的超連結(Hyperlink) 映像的超連結資訊在一定程度上與映像的內容相關。因此一些語義特徵可以通過對超連結的分析計算得到。
映像所在網頁彼此間的連結(Link-Structure) 藉由對網頁與網頁間的連結分析(Link Analysis),網頁內所包含的映像彼此間語義上的相似性可以在一定程度上計算得到。這些資訊可以用來加強映像檢索的效果。
所有這些特徵,都將通過頁面分析器從網頁中自動抽取出來,並被賦予不同的重要性,並按照傳統的文本資訊檢索技術,建立映像的語義特徵向量。向量的每個分量都對應一個關鍵字,它的值取決於該關鍵字在與映像有關的網頁中的分布。如果一個關鍵字在一個網頁中出現很多次,對應的分量就會大一些:另一方面,如果這個關鍵字出現在很多網頁中,對應的分量就會小一些。這種方法在文本檢索中被廣泛採用,也適用於映像檢索。