標籤:xmodem crc16-ccitt redis 源碼
在閱讀Redis源碼的時候,看到了兩個檔案:crc16.c、crc64.c。下面我拋磚引玉,簡析一下原理。
CRC即迴圈冗餘校正碼,是資訊系統中一種常見的檢錯碼。大學課程中的“電腦網路”、“電腦群組成”等課程中都有提及。我們可能都瞭解它的數學原理,在試卷上手工計算一個CRC校正碼,並不是難事。但是電腦不是人,現實世界中的數學原理需要轉化為電腦演算法才能實現目的。實際上作為電腦專業背景人並不會經常使用或接觸到CRC的電腦演算法實現的原理,通常是電子學科背景的人士會接觸的比較多點。電腦當然是可以直接類比出CRC的原始演算法的(我們手工計算的演算法),但是效率肯定不高。那我們來看一下電腦是如何?CRC校正碼演算法的吧!
CRC概念
CRC基本原理不懂的,請移步維基百科:循環冗餘檢查碼
通常根據CRC校正碼的位元(也等於產生多項式【G(x)】最高的冪次)的不同來區分不同的CRC演算法,如CRC-1、CRC-8、CRC-16等。冪次相同的情況下,不同的標準也有不同的CRC演算法。比如G(x)最高次冪為16的時候有:CRC-16-CCITT、CRC-16-IBM等。Redis使用的是CRC-16-CCITT標準,即G(x)為:x16 + x12 + x5 + 1 。
G(x)的通常表徵方式是將多項式轉換成二進位: 1 0001 0000 0010 0001。用十六進位表示為:0x11021。該數儲存空間是17位(2個位元組+1個位,C語言實際儲存是3個位元組),實際上,在模二除的時候,被除數的最高位 1 和除數最高位 1 總是對齊的,其異或結果,總為0,故可省略,則G(x) = 0x1021(2個位元組),節省了一個位元組的空間。
源碼redis的src目錄下的 crc16.c檔案:
static const uint16_t crc16tab[256]= { 0x0000,0x1021,0x2042,0x3063,0x4084,0x50a5,0x60c6,0x70e7, 0x8108,0x9129,0xa14a,0xb16b,0xc18c,0xd1ad,0xe1ce,0xf1ef, 0x1231,0x0210,0x3273,0x2252,0x52b5,0x4294,0x72f7,0x62d6, 0x9339,0x8318,0xb37b,0xa35a,0xd3bd,0xc39c,0xf3ff,0xe3de, 0x2462,0x3443,0x0420,0x1401,0x64e6,0x74c7,0x44a4,0x5485, 0xa56a,0xb54b,0x8528,0x9509,0xe5ee,0xf5cf,0xc5ac,0xd58d, 0x3653,0x2672,0x1611,0x0630,0x76d7,0x66f6,0x5695,0x46b4, 0xb75b,0xa77a,0x9719,0x8738,0xf7df,0xe7fe,0xd79d,0xc7bc, 0x48c4,0x58e5,0x6886,0x78a7,0x0840,0x1861,0x2802,0x3823, 0xc9cc,0xd9ed,0xe98e,0xf9af,0x8948,0x9969,0xa90a,0xb92b, 0x5af5,0x4ad4,0x7ab7,0x6a96,0x1a71,0x0a50,0x3a33,0x2a12, 0xdbfd,0xcbdc,0xfbbf,0xeb9e,0x9b79,0x8b58,0xbb3b,0xab1a, 0x6ca6,0x7c87,0x4ce4,0x5cc5,0x2c22,0x3c03,0x0c60,0x1c41, 0xedae,0xfd8f,0xcdec,0xddcd,0xad2a,0xbd0b,0x8d68,0x9d49, 0x7e97,0x6eb6,0x5ed5,0x4ef4,0x3e13,0x2e32,0x1e51,0x0e70, 0xff9f,0xefbe,0xdfdd,0xcffc,0xbf1b,0xaf3a,0x9f59,0x8f78, 0x9188,0x81a9,0xb1ca,0xa1eb,0xd10c,0xc12d,0xf14e,0xe16f, 0x1080,0x00a1,0x30c2,0x20e3,0x5004,0x4025,0x7046,0x6067, 0x83b9,0x9398,0xa3fb,0xb3da,0xc33d,0xd31c,0xe37f,0xf35e, 0x02b1,0x1290,0x22f3,0x32d2,0x4235,0x5214,0x6277,0x7256, 0xb5ea,0xa5cb,0x95a8,0x8589,0xf56e,0xe54f,0xd52c,0xc50d, 0x34e2,0x24c3,0x14a0,0x0481,0x7466,0x6447,0x5424,0x4405, 0xa7db,0xb7fa,0x8799,0x97b8,0xe75f,0xf77e,0xc71d,0xd73c, 0x26d3,0x36f2,0x0691,0x16b0,0x6657,0x7676,0x4615,0x5634, 0xd94c,0xc96d,0xf90e,0xe92f,0x99c8,0x89e9,0xb98a,0xa9ab, 0x5844,0x4865,0x7806,0x6827,0x18c0,0x08e1,0x3882,0x28a3, 0xcb7d,0xdb5c,0xeb3f,0xfb1e,0x8bf9,0x9bd8,0xabbb,0xbb9a, 0x4a75,0x5a54,0x6a37,0x7a16,0x0af1,0x1ad0,0x2ab3,0x3a92, 0xfd2e,0xed0f,0xdd6c,0xcd4d,0xbdaa,0xad8b,0x9de8,0x8dc9, 0x7c26,0x6c07,0x5c64,0x4c45,0x3ca2,0x2c83,0x1ce0,0x0cc1, 0xef1f,0xff3e,0xcf5d,0xdf7c,0xaf9b,0xbfba,0x8fd9,0x9ff8, 0x6e17,0x7e36,0x4e55,0x5e74,0x2e93,0x3eb2,0x0ed1,0x1ef0};uint16_t crc16(const char *buf, int len) { int counter; uint16_t crc = 0; for (counter = 0; counter < len; counter++) crc = (crc<<8) ^ crc16tab[((crc>>8) ^ *buf++)&0x00FF]; return crc;}
前文提到了CRC校正碼不同的機構有不同的標準,這裡Redis遵循的標準是CRC-16-CCITT標準,這也是被XMODEM協議使用的CRC標準,所以也常用XMODEM CRC代指。
該段代碼的演算法原理並不是作者首創的,這是比較經典的“基於位元組查表法的CRC校正碼產生演算法”。
下面內容節選自一篇論文(請見最後的“參考資料”)。
其實原文中在這裡之後還有兩步化簡,不過感覺不需要理解了。注意上面的符號都是模二的,分數線【——】是模二除,加號【+】是模二加,即異或運算。
這裡先明確幾個概念:
- CRC16的校正碼是兩個位元組,所以Redis的源碼中使用了 uint16_t類型(unsigned short int)
- CRC16要校正的資料位元是8位
- 在求解CRC校正碼的過程中,會用到模二除,實際我們最後不關心它的商Q(x),只關心關心餘數R(x),它也是兩個位元組的大小
- 餘數R(x)分為高位元組RH(x)和低位元組RL(x)兩個部分:R(x) = RH(x) * X^8 + RL(x) (這個+,可以理解成異或,也可以理解成+號)
- 任何數和0異或結果還是這個數
觀察最後一個多項式的第二個部分,可以發現這也是一個CRC校正碼計算過程,它求解的資料是方括弧內的內容——原校正碼的高位元組與當前資料位元進行異或運算,設其結果為Dnew,然後對Dnew再求一次CRC校正碼,設其結果為CRC(Dnew),再將CRC(Dnew)和原校正碼的低位元組進行異或。
上面等式,我簡單概括一下(商可忽略):
CRC(Mn+1(x)) = CRC(RnH(x) + M0(x)) + (RnL(x) * X^8)/G(x)
可以發現這個等式,等號左右兩邊都用到了CRC演算法,不過其參數不同,很明顯這是一個遞迴的形式。如果直接用電腦類比這個公式,其時間效率是很低的,所以發明了“查表法”。
因為CRC演算法要校正的資料位元是8位的,所以CRC演算法的參數只有256種可能,所以事先將這256中參數(資料位元)的CRC校正碼計算出來,儲存到數組之中,這個實際計算CRC校正碼的時候,直接查表就可以了,其時間複雜度是O(1)。
CRC16查表法的推廣 在Redis源碼目錄下,還有一個crc64的檔案,即64位CRC校正碼的演算法,實際上和CRC16查表法的原理是一樣的,它也是校正的8位元據,所以其事先產生的CRC表(數組)中也是有256個元素,不過其中每個元素都是uint64_t類型(unsigned long int) CRC16的查表法當然還可以推廣到CRC32演算法中。這裡還要提一下,該演算法不一定是對8位元據進行校正,也可以對16位進行校正,這是CRC表中就需要有65536(2^16)個元素,浪費儲存空間。也可以對半位元組(4位)進行校正,這時CRC表要儲存的元素個數是32(2^4),雖然節省了記憶體,但是同樣的資料,每次只校正四個位元組的話,會導致校正的次數增加很多,花費的計算時間變多。所以每次校正8位元組,是在綜合了時間和空間效率的前提下的一種折中方案。 很多演算法都是時間和空間,二者不可得兼的。
--------------------------------------------
參考資料
原明亭 蔣偉. 基於位元組查表的迴圈冗餘校正碼的軟體產生演算法. 山東: 山東礦業學院學報(自然科學版), 1999, 第18卷第2期
Redis源碼中的CRC校正碼(crc16、crc64)原理淺析