自適應混合背景模型的即時跟蹤Chris Stauffer W.E.L GrimsonBob Kuo 譯麻省理工學院人工智慧實驗室劍橋市, MA 02139
摘要 即時分割動態地區的通用方法包括“背景減除法”或者是無運動物體的估計映像與當前映像的誤差閾值。對於這個問題有許多方法,不同之處在於背景模型使用的類型和更新模型的程式使用。這篇文章討論的是每個像素作為一個混合高斯模型,並且用線性逼近去更新這個模型。從背景處理中,自適應混合模型的高斯分布可以評估並決定哪個像素值最可能為背景點。每個像素點根據是否為高斯分布被分類,它對於背景建模是非常有效方法。 這個結果在一個穩定的,即時的戶外跟蹤下可以處理燈光的變化,複雜情境的重複動作和長時間的情境變化。這個系統已經連續運行了16個月,一天24小時,包括雨天和雪天。
1 介紹
在過去,計算障礙限制了複雜的即時視頻處理的應用。結果,大部分系統太慢以至於不能實用,或者有太嚴格控制條件的成功。最近,更快的電腦已經使研究者可以考慮更複雜、穩健的即時分析資料流模型。這些新的方法允許研究者在不同的條件下去開始現實世界模型的處理。 考慮視頻監控的問題。一個穩健的系統不應該依靠小心的擺放鏡頭。它應該是穩健的無論是在它可視的地區還是光照發生變化。它應該有能力去處理複雜地區的移動,物體在可視地區的覆蓋,陰影,光線變化,情境中移動元素的影響(例如樹的搖擺),緩慢移動物體,和情境中物體的進入或者移除。傳統背景建模方法的失敗就在於上面的條件無法滿足。我們的目標就是建立一個穩健的,自適應的跟蹤系統,它是足夠靈活的去處理各種光照條件,複雜情境的移動,多目標的移動和對於觀察情境的隨意改變。這個目標跟蹤首選應用在監控行業。
1.1 以前的工作與當前的不足
由於需要手動初始化,大部分研究者已經放棄了非自適應背景建模方法。沒有重新初始化,背景誤差將會隨著時間的推移積累,是的這種方法只有在高監督、短期跟蹤應用中有用,情境改變後將沒有意義。 一個標準的自適應背景建模方法是平均時間序列的映像,建立一個近似於當前無運動物體的靜態映像。然而在物體連續運動,背景可視的這個時間段,這種方法是有效。當多物體運動並且移動緩慢的情況下,這種方法是不魯棒的。它也不能處理雙峰背景,當背景暴露的時候恢複很慢,整個情境有一個單一的設定閾值。 對於許多背景建模方法,情境燈光的變化可能很引出問題。Ridder et al.[5]模型中每個像素使用卡曼濾波使得他們的系統更具有魯棒性對於在情境中燈光的變化。然而這個方法有一個像素自動閾值,它仍然恢複的很慢並且不能很好的處理雙峰背景。Koller et al.[4]已經成功的整合這種方法到自動跟蹤監控應用。 Pfinder[7]針對跟蹤目標使用了多類統計模型,但是背景模型使用了像素單高斯。當室內為空白並初始化後,系統會有不錯的表現。在室外情境中這個跟蹤器沒有好的表現。 Friedman and Russell[2]最近完成了像素級的EM架構來檢測車輛,這個與我們的工作最相似。他們的方法嘗試去明確的區分三種像素值,預先區分出道路的顏色、陰影的顏色及車輛的顏色。他們嘗試去消除陰影的影響是有效果的,但是他們還不能確定針對不在這三種分布的像素值的行為。例如,像素可能是單背景顏色或者多背景顏色的重複運動、陰影或者反射的結果。
1.2 我們的方法
相對於所有像素值作為一個特定分布的顯著模型,我們簡單的認為一個特定的像素為一個混合高斯模型。基於持久性與每個混合高斯的方差,我們可以判斷哪個高斯符合背景顏色。直到有一個高斯一直支援並滿足這個像素點時才被認為背景點,否則為前景點。 我們的系統可以很好的處理光線的變化、情境元素的反覆移動、複雜地區的跟蹤、緩慢移動的物體及情境中物體的進入或者移除。緩慢移動的物體要花更長時間才能融入背景,因為他們的顏色方差值比背景顏色方差值大很多。並且重複的變化可以被學習,背景模型可以被維護,當物體被移動時,它可能被其它分布臨時代替,不過很快即可恢複。 我們的背景模型包括兩個重要的參數:alpha,學習常數,T,背景所佔資料的比例。不需要改變參數,我們的系統已經在人機互動下使用於室內情境16個月,並且連續用於監控室外情境。
2 方法
假如每個像素值是在特定的情境特定的光照下,像素的單高斯模型將是足夠的,然而會產生一些雜訊。假如僅僅光線隨時間變化,像素的自適應單高斯也是足夠的。事實上,多曲面多出現在特定像素的視錐和光線條件改變的情況下。因此,自適應多高斯將是必須的。我們使用混合自適應高斯來逼近這一個過程。 每次高斯參數被更新,高斯函數用一個簡單的啟發被評估,假設出最可能是背景處理的一部分。不匹配於任何一個背景像素的高斯分布的值用串連組件分組。最後,串連組件使用一個多假設跟蹤器在視頻中被跟蹤。1:
圖1:程式的執行。(a) 當前映像,(b) 最可能的背景模型的高斯函數平均值的映像,(c) 前景像素點,(d) 具有疊加跟蹤資訊的當前映像。注意:在這個例子中陰影被認為是前景,假如表面長時間的被陰影覆蓋,這點的高斯函數有足夠的理由認為該點為背景。
2.1 線上混合模型
我們把隨著時間變化的特定像素值看做一個“像素進程”。“像素進程”就是一個像素值的時間序列,例如灰階映像的標量或者色彩映像的向量。t為時間,{x0, y0}為指定的像素值,I為映像序列。
一些“像素進程”由(R, G)標量點顯示在圖2(a)-(c)
圖2:多幅映像表現的為一個像素點的紅、綠標量值隨時間序列的變化。它說明了實際情境的一些不同點。(a) 兩個像素標量點在2分鐘內的變化。(b) 顯示了水表面鏡面反射像素值的雙向模型分布。(c) 顯示了另一個鏡面閃爍的雙向模型。說明了自適應系統對於自動閾值的需要。圖2(b) 和 (c) 的高亮處需要一個多模型表示。 每個像素的值代表光線照射到感興趣物體上並反射到sensor上的輻射光的測量值。在固定的情境和固定的光線下,這個值相對應該是一個常數。假如我們假設它是獨立的,高斯雜訊在採樣過程中產生,它的密度分布由一個中心在均值處的單高斯分布描述。不幸的是,大部分視頻序列包括光線的變化、情境的變化和移動的物體。 假如光線的變化發生在靜態情境中,使用高斯函數去跟蹤這些變化是有必要的。假如一個靜物被放到情境中並且沒有融入到背景,除非它放置的時間超過了之前的物體,在任意時間內,相應的像素被考慮為前景。在前景估計中,這個可以引起積累誤差,產生不好的跟蹤行為。這些因素表明對於高斯參數的估計,越近的觀察越能起到重要的決定。 假如移動物體在情境中出現,一個輔助方面的變換就會發生。甚至一個顏色相對固定的移動物體預計會產生更大的方差比一個靜止的物體。並且,通常來說,應該會有更多的資料支援背景分布模型,因為它們被代替,而不同的物體像素值具有不同的顏色。 在我們的選擇模型和更新程式中有主導因素。每個像素的曆史值,{X1,...,Xt},由一個混合K高斯分布建模。當前值的擷取方式為:
K是分布數,wi,t是一個在t時刻,第i個高斯評估的權重值(多少資料被這個高斯函數所佔據),ui,t是第i個高斯函數在t時刻的平均值,∑i,t是第i個高斯函數在t時刻的矩陣共變數,ƞ是高斯機率密度函數
K由可利用的記憶體空間和計算功率來決定。當前,使用的為3-5。並且,由於計算能力的原因,共變數矩陣假設為如下的格式:
這個假設為紅、綠、藍像素值是獨立的並且有相同的方差。然而這是不確定的,這個假設在犧牲一些精度的情況下,可以讓我們避免一個昂貴的矩陣轉換問題。
從而,每個像素值在情境中的分布為一個混合高斯特徵分布。一個新的像素值,通常用混合模型的最主要的部分代表並更新這個模型。
假如像素進程是一個平穩的進程,一個標準的期望值最大化方法為最大化可能的觀測到的資料。不幸的是,每個像素進程會隨著世界改變的狀態而變化,所以我們用一個近似的方法從本質上把新的觀察值作為大小為1的樣本,並且用一個標準的學習規則去整合那個新的資料。
因為映像的每個像素都有一個混合高斯模型,在最近資料的視窗執行一個精確的EM演算法是昂貴的。取而代之,我們執行一個線上的K均值近似演算法。每個新的像素值Xt,用來檢測是否符合已經存在的K高斯分布,直到出現一個匹配的值。匹配被定義為一個像素值在2.5標準差的分布內。這個閾值在效能上能夠被微弱擾動。每個像素值/每個分布閾值都是有效。當不同的地區有不同的光線時,這是非常有用的(參考圖2(a)),因為物體在陰影處的雜訊比在有光線下的少。一個統一的閾值常常導致物體在進入陰影地區時會消失。
假如沒有一個K分布匹配當前的像素值,可能性最小的分布將會被當前值的均值、初始化方差和低優先順序的權重代替。
K分布在t時刻的權重優先順序ωk,t,公式如下:
公式中α為學習率的平方,Mk,t=1表示匹配,Mk,t=0表示剩餘模型。近似計算後,權重值被重新歸一化。1/α定義為時間常數,它決定了分布參數改變的速度。ωk,t is effectively
a causal low-pass filtered average of the (thresholded) posterior probability that pixel values have matched model k given observations from time 1 through t.這相當於期望的值在之前的值上存在一個指數視窗。
μ和α參數對於不匹配的分布仍然相同。分布的參數匹配於新觀察值,被更新如下:
由於英文水平和專業知識所限,無法繼續翻譯······