相似圖片搜尋的原理(二)

來源:互聯網
上載者:User

轉自:http://www.ruanyifeng.com/blog/2013/03/similar_image_search_part_ii.html

 

二年前,我寫了《相似圖片搜尋的原理》,介紹了一種最簡單的實現方法。

昨天,我在isnowfy的網站看到,還有其他兩種方法也很簡單,這裡做一些筆記。

一、顏色分布法

每張圖片都可以產生顏色分布的長條圖(color histogram)。如果兩張圖片的長條圖很接近,就可以認為它們很相似。

任何一種顏色都是由紅綠藍三原色(RGB)構成的,所以共有4張長條圖(三原色長條圖 + 最後合成的長條圖)。

如果每種原色都可以取256個值,那麼整個色彩空間共有1600萬種顏色(256的三次方)。針對這1600萬種顏色比較長條圖,計算量實在太大了,因此需要採用簡化方法。可以將0~255分成四個區:0~63為第0區,64~127為第1區,128~191為第2區,192~255為第3區。這意味著紅綠藍分別有4個區,總共可以構成64種組合(4的3次方)。

任何一種顏色必然屬於這64種組合中的一種,這樣就可以統計每一種組合包含的像素數量。

是某張圖片的顏色分布表,將表中最後一欄提取出來,組成一個64維向量(7414, 230, 0, 0, 8, ..., 109, 0, 0, 3415, 53929)。這個向量就是這張圖片的特徵值或者叫"指紋"。

於是,尋找相似圖片就變成了找出與其最相似的向量。這可以用皮爾遜相關係數或者餘弦相似性算出。

二、內容特徵法

除了顏色構成,還可以從比較圖片內容的相似性入手。

首先,將原圖轉成一張較小的灰階圖片,假定為50x50像素。然後,確定一個閾值,將灰階圖片轉成黑白圖片。

  

如果兩張圖片很相似,它們的黑白輪廓應該是相近的。於是,問題就變成了,第一步如何確定一個合理的閾值,正確呈現照片中的輪廓?

顯然,前景色彩與背景色反差越大,輪廓就越明顯。這意味著,如果我們找到一個值,可以使得前景色彩和背景色各自的"類內差異最小"(minimizing the intra-class variance),或者"類間差異最大"(maximizing the inter-class variance),那麼這個值就是理想的閾值。

1979年,日本學者大津展之證明了,"類內差異最小"與"類間差異最大"是同一件事,即對應同一個閾值。他提出一種簡單的演算法,可以求出這個閾值,這被稱為"大津法"(Otsu's method)。下面就是他的計算方法。

假定一張圖片共有n個像素,其中灰階值小於閾值的像素為 n1 個,大於等於閾值的像素為 n2 個( n1 + n2 = n )。w1 和 w2 表示這兩種像素各自的比重。

  w1 = n1 / n

  w2 = n2 / n

再假定,所有灰階值小於閾值的像素的平均值和方差分別為 μ1 和 σ1,所有灰階值大於等於閾值的像素的平均值和方差分別為 μ2 和 σ2。於是,可以得到

  類內差異 = w1(σ1的平方) + w2(σ2的平方)

  類間差異 = w1w2(μ1-μ2)^2

可以證明,這兩個式子是等價的:得到"類內差異"的最小值,等同於得到"類間差異"的最大值。不過,從計算難度看,後者的計算要容易一些。

下一步用"窮舉法",將閾值從灰階的最低值到最高值,依次取一遍,分別代入上面的算式。使得"類內差異最小"或"類間差異最大"的那個值,就是最終的閾值。具體的執行個體和Java演算法,請看這裡。

有了50x50像素的黑白縮圖,就等於有了一個50x50的0-1矩陣。矩陣的每個值對應原圖的一個像素,0表示黑色,1表示白色。這個矩陣就是一張圖片的特徵矩陣。

兩個特徵矩陣的不同之處越少,就代表兩張圖片越相似。這可以用"異或運算"實現(即兩個值之中只有一個為1,則運算結果為1,否則運算結果為0)。對不同圖片的特徵矩陣進行"異或運算",結果中的1越少,就是越相似的圖片。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.