視覺化是最熱的雲應用領域之一。 雲集無數大牛,小專和創新企業代表。 本篇來自Pat Hanrahan和Jeffrey Heer兩位視覺化「大師」所率領的斯坦福視覺化組的一篇論文,重點分享了圖像的主題色提取演算法。
浙江大學CAD&CG國家重點實驗室視覺化與可視分析小組特別將論文進行了整理,以下為文章摘要。
斯坦福視覺化組非常有必要介紹一下,領頭的兩個大牛一個是Pat Hanrahan教授,橫跨科學視覺化和資訊視覺化兩個領域,即便不知道這個名字那今年紅得發紫的資料視覺化上市公司Tableau應該都是知道的,他就是聯合創始人, Tableau原生於他的Polaris系統;另一個Jeffrey Heer是資訊視覺化和人機交互領域近幾年的當紅炸子雞,論文兼顧創新性和實用性,驚才絕豔。
回到正題,這篇文章解決了圖像的主題色提取的問題,屬於顏色建模這個topic。 論文的一作同一年在Eurovis、CHI和SIGGRAPH上都發表了顏色建模的文章(SIGGRAPH的論文現在處於conditionally accepted狀態),Eurovis和CHI都是最佳論文之一,真可謂厚積厚發。
這次真的是回到正題,回到這篇論文。 一般的主題色提取方法有k-means和fuzzy c-means的按圖元顏色值聚類的方法和顏色長條圖取峰值的方法。 其實論文的思路並不複雜,對圖像定義一系列的特徵,套用多元線性回歸模型LASSO,在眾包平臺亞馬遜土耳其機器人上建立任務收集訓練集,LASSO通過訓練集的學習增加關鍵特徵的權重減小冗余特徵的影響, 從而生成一個比較好的主題色提取模型。 下面分別說明特徵定義、回歸模型和user study三個部分。
其實主題色這個概念真的是公說公有理,婆說婆有理,評判一張圖像的主題色是哪些,一千個看官不可能得到同一個答案,但是他們的答案大多近似。 因此本文以使用者定義的主題色作為標準答案也算合理。 對於每張圖像,文章以k=40用k-means方法計算圖像的40個顏色作為基準色。 使用者只能從這40個顏色中挑選5個顏色作為圖像的主題色。
文章定義了以下6個方面的特徵,提取計算出79個特徵變數,這裡作簡單說明:
視覺顯著性 saliency:文章以使用者對圖像的眼動跟蹤資料取定義圖像中每個圖元的視覺顯著性,定義某一套主題色在圖像中的視覺顯著性為所有主題色所在圖元的視覺顯著性的疊加,同時定義某顏色視覺顯著性密度為疊加值對圖元個數的比值。
覆蓋誤差 coverage error:覆蓋誤差定義為用主題色去覆蓋整張圖像所得到的圖像和原圖像的顏色誤差,分硬誤差和軟誤差兩種,區別在於一個圖元點是由單一主題色覆蓋還是由多個主題色的線性疊加覆蓋。 相似地,還定義了圖元在亮度、飽和度、紅綠、藍黃等顏色通道的覆蓋誤差,以及對圖像進行分割後按區域計算的覆蓋誤差。
顏色多樣性 color diversity:顏色多樣性考慮顏色之間的平均、最大、最小距離。
顏色集中性 color impurity:顏色集中性考慮與主題色相近的前5%的圖元之間的距離。
顏色可命名性 color nameability與顏色統計 color statistics:這兩個聽起來比較直觀,實際上非常模糊,文中也沒有詳細介紹。
定義好這79個特徵之後,就要輪到LASSO上場了。 LASSO(least absolute shrinkage selection operator)是一種多元線性回歸方法,在傳統的多元線性回歸式子之余,通過一個約束條件達到特徵選取的目的(下圖公式摘自于LASSO原文)。 其中x是特徵,β是特徵的權重,如果約束t是一個無窮大的值,那麼就跟一般多元線性回歸沒有差別,但是t逐漸減小的時候特徵權重就收到擠壓(shrinkage),從而達到去除冗余特徵的選擇(selection)作用。 通過LASSO方法對訓練集的學習,所定義的79個特徵就被減少到非常有限個。
移步這裡有對這個方法的思想和發展比較詳細的介紹。
User study就是作者在這個眾包平臺上設置了40張圖像,每個使用者接受10張圖像的任務,在基準色中找到圖像的5個主題色。 另外作為對比,作者又找了11個藝術系的學生執行相同的任務。
下圖是一張圖像的user study結果統計,可以看出使用者所選的主題色和藝術系同學的還是差不多的,但是和自動方法選出來的顏色相差較大。
對於建模得到的主題色,作者又以user study去鑒定是否和圖像真實主題相近,由使用者以評分的方式判斷,對給出主題給出1到5分,5分是非常接近而1分是非常不接近。 從下圖可以看出建模得到顏色和使用者組的打分都廣受好評(左上角標出平均分),而其它兩種方法則稍顯劣勢。
最後來看下對新圖像的建模情況對比:可以看出文章方法能夠提取出一些圖元覆蓋度不是很高,但是在視覺上比較顯著的區域,如蝴蝶的白色以及海上的紅色太陽等等。
最後文章給出了這79個特徵的權重,似乎就可以用於類似于基於主題色的圖像檢索一類的應用。 但實際上,由於視覺顯著性是通過使用者的眼動跟蹤資料得到的,所以無法對沒有視覺顯著性的圖像進行建模,就大大降低了可用性。 如果對這個特徵進行改進的話,就能讓這個方法得到更廣泛的應用。
幾點補充:
1.之前視物致知已經報導過這篇文章,本博文則是從學術角度重新審視這篇文章。
2.Eurovis的文章針對資料實體本身的顏色語義和設計圖元所對應顏色的一致性的問題,比如是水果的資料,那藍莓就用藍色,香蕉就用黃色等,感興趣的看官可以看原論文。