【KMP O(n)演算法詳解】

最後更新：2018-12-05 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

轉自matrix67.com

如果機房馬上要關門了，或者你急著要和MM約會，請直接跳到第六個自然段。

    我們這裡說的KMP不是拿來放電影的（雖然我很喜歡這個軟體），而是一種演算法。KMP演算法是拿來處理字串匹配的。換句話說，給你兩個字串，你需要回答，B串是否是A串的子串（A串是否包含B串）。比如，字串A="I'm matrix67"，字串B="matrix"，我們就說B是A的子串。你可以委婉地問你的MM：“假如你要向你喜歡的人表白的話，我的名字是你的告白語中的子串嗎？”
    解決這類問題，通常我們的方法是枚舉從A串的什麼位置起開始與B匹配，然後驗證是否匹配。假如A串長度為n，B串長度為m，那麼這種方法的複雜度是O (mn)的。雖然很多時候覆雜度達不到mn（驗證時只看頭一兩個字母就發現不匹配了），但我們有許多“最壞情況”，比如，A= "aaaaaaaaaaaaaaaaaaaaaaaaaab"，B="aaaaaaaab"。我們將介紹的是一種最壞情況下O(n)的演算法（這裡假設 m<=n），即傳說中的KMP演算法。
    之所以叫做KMP，是因為這個演算法是由Knuth、Morris、Pratt三個提出來的，取了這三個人的名字的頭一個字母。這時，或許你突然明白了AVL 樹為什麼叫AVL，或者Bellman-Ford為什麼中間是一杠不是一個點。有時一個東西有七八個人研究過，那怎麼命名呢？通常這個東西乾脆就不用人名字命名了，免得發生爭議，比如“3x+1問題”。扯遠了。
    個人認為KMP是最沒有必要講的東西，因為這個東西網上能找到很多資料。但網上的講法基本上都涉及到“移動(shift)”、“Next函數”等概念，這非常容易產生誤解（至少一年半前我看這些資料學習KMP時就沒搞清楚）。在這裡，我換一種方法來解釋KMP演算法。

假如，A="abababaababacb"，B="ababacb"，我們來看看KMP是怎麼工作的。我們用兩個指標i和j分別表示，A[i-j+ 1..i]與B[1..j]完全相等。也就是說，i是不斷增加的，隨著i的增加j相應地變化，且j滿足以A[i]結尾的長度為j的字串正好匹配B串的前 j個字元（j當然越大越好），現在需要檢驗A[i+1]和B[j+1]的關係。當A[i+1]=B[j+1]時，i和j各加一；什麼時候j=m了，我們就說B是A的子串（B串已經整完了），並且可以根據這時的i值算出匹配的位置。當A[i+1]<>B[j+1]，KMP的策略是調整j的位置（減小j值）使得A[i-j+1..i]與B[1..j]保持匹配且新的B[j+1]恰好與A[i+1]匹配（從而使得i和j能繼續增加）。我們看一看當
i=j=5時的情況。

    i = 1 2 3 4 5 6 7 8 9 ……
    A = a b a b a b a a b a b …
    B = a b a b a c b
    j = 1 2 3 4 5 6 7

此時，A[6]<>B[6]。這表明，此時j不能等於5了，我們要把j改成比它小的值j'。j'可能是多少呢？仔細想一下，我們發現，j'必須要使得B[1..j]中的頭j'個字母和末j'個字母完全相等（這樣j變成了j'後才能繼續保持i和j的性質）。這個j'當然要越大越好。在這裡，B [1..5]="ababa"，頭3個字母和末3個字母都是"aba"。而當新的j為3時，A[6]恰好和B[4]相等。於是，i變成了6，而j則變成了 4：

    i = 1 2 3 4 5 6 7 8 9 ……
    A = a b a b a b a a b a b …
    B =     a b a b a c b
    j =     1 2 3 4 5 6 7

從上面的這個例子，我們可以看到，新的j可以取多少與i無關，只與B串有關。我們完全可以預先處理出這樣一個數組P[j]，表示當匹配到B數組的第j個字母而第j+1個字母不能匹配了時，新的j最大是多少。P[j]應該是所有滿足B[1..P[j]]=B[j-P[j]+1..j]的最大值。
再後來，A[7]=B[5]，i和j又各增加1。這時，又出現了A[i+1]<>B[j+1]的情況：

    i = 1 2 3 4 5 6 7 8 9 ……
    A = a b a b a b a a b a b …
    B =     a b a b a c b
    j =     1 2 3 4 5 6 7

由於P[5]=3，因此新的j=3：

    i = 1 2 3 4 5 6 7 8 9 ……
    A = a b a b a b a a b a b …
    B =         a b a b a c b
    j =         1 2 3 4 5 6 7

這時，新的j=3仍然不能滿足A[i+1]=B[j+1]，此時我們再次減小j值，將j再次更新為P[3]：

    i = 1 2 3 4 5 6 7 8 9 ……
    A = a b a b a b a a b a b …
    B =             a b a b a c b
    j =             1 2 3 4 5 6 7

現在，i還是7，j已經變成1了。而此時A[8]居然仍然不等於B[j+1]。這樣，j必須減小到P[1]，即0：

    i = 1 2 3 4 5 6 7 8 9 ……
    A = a b a b a b a a b a b …
    B =               a b a b a c b
    j =             0 1 2 3 4 5 6 7

終於，A[8]=B[1]，i變為8，j為1。事實上，有可能j到了0仍然不能滿足A[i+1]=B[j+1]（比如A[8]="d"時）。因此，準確的說法是，當j=0了時，我們增加i值但忽略j直到出現A[i]=B[1]為止。
這個過程的代碼很短（真的很短），我們在這裡給出：

j:=0;for i:=1 to n dobegin   while (j>0) and (B[j+1]<>A[i]) do j:=P[j];   if B[j+1]=A[i] then j:=j+1;   if j=m then   begin      writeln('Pattern occurs with shift ',i-m);      j:=P[j];   end;end;

最後的j:=P[j]是為了讓程式繼續做下去，因為我們有可能找到多處匹配。
這個程式或許比想像中的要簡單，因為對於i值的不斷增加，代碼用的是for迴圈。因此，這個代碼可以這樣形象地理解：掃描字串A，並更新可以匹配到B的什麼位置。

    現在，我們還遺留了兩個重要的問題：一，為什麼這個程式是線性；二，如何快速預先處理P數組。
    為什麼這個程式是O(n)的？其實，主要的爭議在於，while迴圈使得執行次數出現了不確定因素。我們將用到時間複雜度的攤還分析中的主要策略，簡單地說就是通過觀察某一個變數或函數值的變化來對零散的、雜亂的、不規則的執行次數進行累計。KMP的時間複雜度分析可謂攤還分析的典型。我們從上述程式的j 值入手。每一次執行while迴圈都會使j減小（但不能減成負的），而另外的改變j值的地方只有第五行。每次執行了這一行，j都只能加1；因此，整個過程中j最多加了n個1。於是，j最多隻有n次減小的機會（j值減小的次數當然不能超過n，因為j永遠是非負整數）。這告訴我們，while迴圈總共最多執行了n次。按照攤還分析的說法，平攤到每次for迴圈中後，一次for迴圈的複雜度為O(1)。整個過程顯然是O(n)的。這樣的分析對於後面P數組預先處理的過程同樣有效，同樣可以得到預先處理過程的複雜度為O(m)。
    預先處理不需要按照P的定義寫成O(m^2)甚至O(m^3)的。我們可以通過P[1],P[2],...,P[j-1]的值來獲得P[j]的值。對於剛才的B="ababacb"，假如我們已經求出了P[1],P[2],P[3]和P[4]，看看我們應該怎麼求出P[5]和P[6]。P[4]=2，那麼P [5]顯然等於P[4]+1，因為由P[4]可以知道，B[1,2]已經和B[3,4]相等了，現在又有B[3]=B[5]，所以P[5]可以由P[4] 後面加一個字元得到。P[6]也等於P[5]+1嗎？顯然不是，因為B[
P[5]+1 ]<>B[6]。那麼，我們要考慮“退一步”了。我們考慮P[6]是否有可能由P[5]的情況所包含的子串得到，即是否P[6]=P[ P[5] ]+1。這裡想不通的話可以仔細看一下：

        1 2 3 4 5 6 7
    B = a b a b a c b
    P = 0 0 1 2 3 ?

P[5]=3是因為B[1..3]和B[3..5]都是"aba"；而P[3]=1則告訴我們，B[1]、B[3]和B[5]都是"a"。既然P[6]不能由P[5]得到，或許可以由P[3]得到（如果B[2]恰好和B[6]相等的話，P[6]就等於P[3]+1了）。顯然，P[6]也不能通過P[3]得到，因為B[2]<>B[6]。事實上，這樣一直推到P[1]也不行，最後，我們得到，P[6]=0。
怎麼這個預先處理過程跟前面的KMP主程式這麼像呢？其實，KMP的預先處理本身就是一個B串“自我匹配”的過程。它的代碼和上面的代碼神似：

P[1]:=0;j:=0;for i:=2 to m dobegin   while (j>0) and (B[j+1]<>B[i]) do j:=P[j];   if B[j+1]=B[i] then j:=j+1;   P[i]:=j;end;

最後補充一點：由於KMP演算法只預先處理B串，因此這種演算法很適合這樣的問題：給定一個B串和一群不同的A串，問B是哪些A串的子串。

串匹配是一個很有研究價值的問題。事實上，我們還有尾碼樹，自動機等很多方法，這些演算法都巧妙地運用了預先處理，從而可以線上性的時間裡解決字串的匹配。我們以後來說。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

【KMP O(n)演算法詳解】

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support