互連網上的映像檢索
轉載自:http://blog.csdn.net/lwm_1985/article/details/6370958
------------------------------------------------------------------------------------------------------------------------------------------
映像檢索技術的兩個階段
隨著互連網的高速發展,網上的多媒體資訊也急劇增加,因此人們對多媒體資訊的檢索需求也就隨之而來。傳統的資訊檢索主要集中於文字的檢索,在多媒體方面的研究並不是很多。互連網上的多媒體以映像為主,因此映像的檢索就成為了目前研究的熱點。
互連網像的檢索經曆了兩個階段:第一階段是以關鍵字為基礎的檢索。第二階段是以映像自身的內容為基礎的檢索。
在基於關鍵字的映像檢索系統中,需要先對所有的映像進行關鍵字標註,然後才能使用全文檢索索引技術對映像進行搜尋。這種方法存在兩個方面的問題:一是這種方法需要較多的人工參與,而且隨著映像數目的增加,這種方法很難實現;第二個問題在於映像所包含的資訊量龐大,不同的人對於同一張映像的理解也不相同,這就導致對映像的標註沒有一個統一的標準,因而檢索的結果不能很好地符合使用者的需求。
基於內容的檢索不同於基於關鍵字的檢索,它不需要過多的人工參與,而利用映像自身的特徵(如顏色、紋理、形狀等)來進行檢索,具有較強的客觀性。但是,由於這些特徵並不代表映像真正的語義資訊,基於內容的檢索結果往往不令人滿意。因此目前大多數系統還是基於關鍵字的檢索,如AltaVista、Yahoo!、Ditto等。
為此,我們提出了一種在互連網上進行映像檢索的新方法,它把基於關鍵字的檢索和基於內容的檢索相結合,並引入了使用者的相關反饋來最佳化檢索結果。在下文中我們將介紹如何在互連網上收集映像、建立索引以及進行檢索。並將介紹如何結合使用者的互動,利用相關反饋來提高檢索的結果。最後,我們將對映像檢索給出總結。
互連網上的映像檢索
要建立互連網上的映像檢索系統,需要解決三個方面的問題。首先是如何從互連網上擷取映像,其次是如何對擷取的映像建立相應的索引,最後是如何根據使用者的需求在映像資料庫中進行檢索。
1.映像的擷取
互連網上存在各式各樣的映像,我們需要收集一些使用者最感興趣的、具有代表性的映像以供使用者使用。首先,根據目前一些流行的搜尋引擎的分類,建立相應的映像分類的階層;然後針對每個類別選擇一些熱門的、具有代表性的網站作為候選。例如在體育方面的http://www.nba.com,政治方面的http://www.whitehouse.gov,娛樂方面的http://www.disney.com,新聞方面的http://www.cnn.com等網站均被選擇成為下載映像的網站。
然後,設計一個高效率的軟體工具(Crawler),針對選定的代表性網站自動進行映像的收集。網站內所有的頁面都將送給頁面分析器進行分析,頁面內所有的映像都將以連結的方式儲存到相應的資料庫中。同時,一些啟發學習法資訊,像的尺寸、檔案類型、檔案名稱、映像的顏色長條圖等,將用來對映像進行簡單的分類,把廣告條、背景、表徵圖、按鈕等無語義資訊的映像與使用者真正需要的映像區別開,以供使用者查詢。
2.映像特徵的抽取及索引
對收集到的映像,需要進行特徵抽取,並建立相應的索引,以提高檢索的效率。映像的特徵分為兩種,一種是映像的低層特徵,像的顏色、紋理及其形狀等。另外一類特徵則是映像的語義特徵。
對於映像的低層特徵,主要採用的是映像的顏色、紋理及其形狀等特徵。其中,顏色特徵和映像的大小、方向無關,而且對映像的背景顏色不敏感,因此顏色特徵被廣泛應用於映像檢索。顏色特徵中包括顏色長條圖、顏色相關圖、顏色矩等。紋理特徵代表了物體的視覺模式,它包含了物體表面的組織圖以及與周圍環境之間的關係。常用的方法有相關矩陣法,粗糙度、對比等紋理表示方法,以及小波變換等。形狀特徵則包括兩種,一種是基於邊界的形狀特徵,另外一種則是基於地區的形狀特徵。最成功的表示方法有傅利葉變換和不變矩等。這些低層的特徵將通過各種方法抽取出來,並形成一組特徵向量,建立相關索引並儲存到資料庫中。
由於低層的特徵並不直接代表映像的語義資訊,因此我們還將抽取映像的語義特徵。我們採用在網頁中與映像相關的文字資訊來表徵映像的語義特徵,其中使用到的相關資訊有:
映像的檔案名稱及其網址 大多數作者直接通過檔案名稱來表示映像的內容,如redflower.jpg、cat.jpg、clinton.jpg等,就直接把映像的內容體現在檔案名稱之中。同時,映像的網址資訊也提供了一些相關的語義資訊,如http://www.ditto.com/images/animals/anim_birds.jpg就提供了映像所屬的類別資訊及其語義資訊。
映像的替代文字(Alternate Text) 替代文字在網頁中通常用來表示映像的語義資訊,而且也是最為準確的一個特徵。不過,並不是所有的作者都願意提供這個資訊。
映像周圍的文字(Surrounding Text) 在網頁中映像周圍的文字是最可能表達映像所有包含的內容的,雖然有些文字可能與映像並不相關,不過這些文字在一定程度上還是表達了映像的語義資訊,因此被選擇成為語義特徵之一。
映像所在頁面的標題 有些映像用來加強作者的意圖,因此有些映像的內容同頁面的標題內容直接相關。頁面的標題也就成為語義特徵之一。
映像的超連結(Hyperlink) 映像的超連結資訊在一定程度上與映像的內容相關。因此一些語義特徵可以通過對超連結的分析計算得到。
映像所在網頁彼此間的連結(Link-Structure) 藉由對網頁與網頁間的連結分析(Link Analysis),網頁內所包含的映像彼此間語義上的相似性可以在一定程度上計算得到。這些資訊可以用來加強映像檢索的效果。
所有這些特徵,都將通過頁面分析器從網頁中自動抽取出來,並被賦予不同的重要性,並按照傳統的文本資訊檢索技術,建立映像的語義特徵向量。向量的每個分量都對應一個關鍵字,它的值取決於該關鍵字在與映像有關的網頁中的分布。如果一個關鍵字在一個網頁中出現很多次,對應的分量就會大一些:另一方面,如果這個關鍵字出現在很多網頁中,對應的分量就會小一些。這種方法在文本檢索中被廣泛採用,也適用於映像檢索。
3. 映像的檢索
使用者提交的查詢,可以是關鍵字的查詢,也可以是一張使用者感興趣的映像,系統將根據提交的查詢,在映像資料庫中找到一些最相似的映像返回給使用者。提交的查詢將首先轉換成為一個由低層特徵和高層特徵結合的向量,然後分別與資料庫中映像的向量計算相似性。相似性的計算分類兩步完成:一是計算低層特徵的相似性,二是計算高層語義特徵的相似性,然後採用線性組合的方法得到最後的相似性。相似性高的映像成為檢索的結果。
相關反饋提高檢索效果
雖然低層特徵和高層的語義特徵相結合,在一定程度上提高了映像檢索的效果,不過檢索系統的效能還是不太令人滿意,其主要原因有以下幾個方面:
1.從目前一些流行的搜尋引擎來看,使用者提交的查詢的平均長度為2~3個關鍵字,這種短查詢難以完全表達使用者的需求,導致檢索結果與使用者的需求差異較大。
2.在資料庫中儲存的索引都是根據收集到的映像的各種相關文字來建立的,這些文字是從作者的角度來描述的,與使用者所使用的詞之間存在一定的差異。
3.由於一張映像中存在很多資訊,而且不同的使用者對同一張映像的認識差異也很大;這就使得即使是相同的查詢,不同使用者希望得到的結果差異也很大。
4.由於低層特徵並不反映映像真正的語義資訊,因此當使用者提交一張映像作為查詢時,系統很難找到使用者真正想要尋找的映像。
這些問題導致自動的映像檢索效果不能令人滿意。因此,許多系統都引入了人的互動,通過使用者的相關反饋,即通過選擇一些正確/錯誤的例子作為反饋,來逐漸提高檢索的結果。借鑒文本資訊檢索的方法,我們在系統中也引入了相關反饋來修改使用者提交的查詢,使得修改後的查詢逐步接近使用者真正的需求,來提高系統的效能。
通過相關反饋對使用者提交的查詢的修改,檢索的效能比原先有了一定的提高。不過,大多數相關反饋並不具有記憶能力,每次反饋後的結果只能提高本次查詢結果。因此我們引入了語義網路,把每次反饋的結果記錄到語義網路中,使得系統的效果隨著使用次數的增加而逐步提高。
分布式發展趨勢
映像檢索技術給使用者提供了一個在互連網上搜尋感興趣映像資源的有效手段,它不僅利用映像自身的特徵,如顏色、紋理和形狀等,而且還利用到映像所處的網頁中與其相關的文字資訊作為該映像的語義特徵,來提高映像檢索的效果。另外,系統還引入了使用者的相關反饋來改善使用者的查詢品質,使得查詢的結果更加貼近使用者的需求。最後,系統通過語義網路,記錄使用者查詢的過程,為其他使用者的查詢提供指導作用。
由於傳統的搜尋引擎在設計方面存在局限性(集中式的體繫結構,通過網路爬行器收集資訊),因此它們無法提供高準確度、搜尋即時更新的資料庫的服務。因此,開發一個新的搜尋方塊架,支援“點對點”,按照層次進行分布式搜尋成為今後搜尋引擎發展的趨勢。這種新的搜尋方塊架包含了對個人文檔、區域網路以及互連網三個層次的搜尋。當搜尋區域網路或者是互連網的時候,搜尋將以分布方式執行。同時,系統將能夠自動地把使用者的查詢分發給相似的使用者或者是互連網上最為合適的搜尋引擎,以獲得更好的結果。