賴勇浩(http://laiyonghao.com)
這是我讀工程碩士的時候完成課程作業時做的,放在 dropbox 的角落中生塵已經有若干年頭了,最近 @shugelee 同學突然來了興緻搞驗證碼識別,問到我的時候我記起自己做過一點點東西,特發上來給他參考,並趁機補充了一下《Python也可以》系列。
映像預先處理
使用(後方稱為 SAMPLE_BMP)作為訓練和測試資料來源,下文將講述如何將映像轉換為訓練資料。
灰階化和二值化
在字元識別的過程中,識別演算法不需要關心映像的彩色資訊。因此,需要將彩色映像轉化為灰階映像。經過灰階化處理後的映像中還包含有背景資訊。因此,我們還得進一步處理,將背景雜訊屏蔽掉,突顯出字元輪廓資訊。二值化處理就能夠將其中的字元顯現出來,並將背景去除掉。在一個[0,255]灰階級的灰階映像中,我們取 196 為該灰階映像的歸一化值,代碼如下:
def convert_to_bw(im):im = im.convert("L")im.save("sample_L.bmp")im = im.point(lambda x: WHITE if x > 196 else BLACK)im = im.convert('1')im.save("sample_1.bmp")return im
是灰階化的映像,可以看到背景仍然比較明顯,有一層淡灰色:
是二值化的映像,可以看到背景已經完全去除:
圖片的分割和正常化:
通過二值化映像,我們可以分割出每一個字元為一個單獨的圖片,然後再計算相應的特徵值,如所示:
這些圖片是由程式自動進行分割而成,其中用到的程式碼片段如下:
def split(im):assert im.mode == '1'result = []w, h = im.sizedata = im.load()xs = [0, 23, 57, 77, 106, 135, 159, 179, 205, 228, w]ys = [0, 22, 60, 97, 150, h]for i, x in enumerate(xs):if i + 1 >= len(xs):breakfor j, y in enumerate(ys):if j + 1 >= len(ys):breakbox = (x, y, xs[i+1], ys[j+1])t = im.crop(box).copy()box = box + ((i + 1) % 10, )#save_32_32(t, 'num_%d_%d_%d_%d_%d'%box)result.append((normalize_32_32(t, 'num_%d_%d_%d_%d_%d'%box), (i + 1) % 10))return result
其中的 xs 和 ys 分別是橫向和豎向切割的分界點,由手工測試後指定,t = im.crop(box).copy() 程式碼是從指定的地區中“摳”出圖片,然後通過 normalize_32_32 進行正常化。進行正常化是為了產生規則的訓練和測試資料集,也是為了更容易地地計算出特徵碼。
產生訓練資料集和測試資料集
為簡單起見,我們使用了最簡單的映像特徵——黑色像素在映像中的分布來進行訓練和測試。首先,我們把映像正常化為 32*32 像素的圖片,然後按 2*2 分切成 16*16 共 256 個子領域,然後統計這 4 個像素中黑色像素的個數,組成 256 維的特徵向量,如下是數字 2 的一個特徵向量:
0 0 4 4 4 2 0 0 0 0 0 0 0 0 2 4 0 0 4 4 4 2 0 0 0 0 0 0 0 0 2 4 2 2 4 4 2 1 0 0 0 0 0 0 1 2 3 4 4 4 4 4 0 0 0 0 0 0 0 0 2 4 4 4 4 4 4 4 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 0 0 0 2 4 4 4 4 4 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 4 0 0 0 0 0 0 0 4 4 4 4 4 4 4 4 4 2 2 2 2 2 2 2 4 4 2 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 0 2 4 4 4 2 2 2 2 4 3 2 2 2 2 2 0 2 4 4 4 0 0 0 0 4 2 0 0 0 0 0 0 2 4 4 4 0 0 0 0 4 2 0 0 0 0 0 0 2 4 4 4 0 0 0 0 0 0 0 0 0 0 0 0 2 4 4 4 0 0 0 0 0 0 0 0 0 0 0 0 2 4 4 4
相應地,因為我們只需要識別 0~9 共 10 個數字,所以建立一個 10 維的向量作為結果,數字相應的維置為 1 值,其它值為 0。數字 2 的結果如下:0 0 1 0 0 0 0 0 0 0
我們特徵向量和結果向量通過以下代碼計算出來後,按 FANN 的格式把它們存到 train.data 中去:
f = open('train.data', 'wt')print >>f, len(result), 256, 10for input, output in result:print >>f, inputprint >>f, output
BP神經網路
利用神經網路識別字元是本文的另外一個關鍵階段,良好的網路效能是識別結果可靠性的重要保證。這裡就介紹如何利用BP 神經網路來識別字元。反向傳播網路(即:Back-Propagation Networks ,簡稱:BP 網路)是對非線性可微分函數進行權值訓練的多層前向網路。在人工神經網路的實際應用中,80%~90%的模型採用 BP 網路。它主要用在函數逼近,模式識別,分類,資料壓縮等幾個方面,體現了人工神經網路的核心部分。
網路結構
網路結構的設計是根據輸入結點和輸出結點的個數和網路效能來決定的,如。本實驗中的標準待識別字元的大小為 32*32 的二值映像,即將 1024 個像素點的映像轉化為一個 256 維的列向量作為輸入。由於本實驗要識別出10 個字元,可以將目標輸出的值設定為一個10 維的列向量,其中與字元相對應那個位為1,其他的全為0 。根據實際經驗和實驗確定,本文中的網路隱含層結點數目為64。因此,本文中的BP 網路的結構為 256-64-10。
訓練結果
本實驗中的採用的樣本個數為 50 個,將樣本映像進行預先處理,得到處理後的樣本向量P,再設定好對應的網路輸出目標向量T,把樣本向量 P 和網路輸出目標向量 T 都儲存到 train.data 檔案中。設定好網路訓練參數,對網路進行訓練和測試,並將最佳的一個網路權值儲存到 number_char_recognize.net 檔案中。下面就將本文中設定和訓練網路參數的程式列舉如下:
connectionRate = 1learningRate = 0.008desiredError = 0.001maxIterations = 10000iterationsBetweenReports = 100inNum= 256hideNum = 64outNum=10class NeuNet(neural_net):def __init__(self):neural_net.__init__(self)neural_net.create_standard_array(self,(inNum, hideNum, outNum))def train_on_file(self,fileName):neural_net.train_on_file(self,fileName,maxIterations,iterationsBetweenReports,desiredError)
可以從代碼中看到我們建立起一個輸出層有 256 個神經元,隱藏層有 64 個神經元,輸出層有 10 個神經元的ANN,其中神經層的串連率為 100%,學習率為 0.28,最大進行 10000 次迭代,並每隔 100 次報告一下學習結果。
if __name__ == "__main__":ann = NeuNet()ann.train_on_file("train.data")ann.save("number_char_recognize2.net")
按照上面的程式,對網路進行訓練和模擬測試,儲存訓練效能最好的一組網路權值,並儲存到起來。
通過 666 次迭代之後,錯誤率已經低於 0.001,學習中止,並將結果儲存起來。
測試結果
實驗的測試是通過從儲存好的 NN 資料檔案中建立 NN 的形式來實驗的,具體的代碼如下:
if __name__ == "__main__":ann = NeuNet()ann.create_from_file("number_char_recognize.net")data = read_test_data()for k, v in data.iteritems():k = string_to_list(k)v = string_to_list(v)result = ann.run(k)print euclidean_distance(v, result)
其實 ann.create_from_file 是從檔案中讀取存檔,建立人工神經網路,然後使用 read_test_data 函數讀取測試資料,並通過迴圈對每一個測試資料和相應的期望值轉換為 NN 的輸入格式,然後使用 ann.run 函數調用神經網路測試,對測試結果與期望值進行歐氏距離計算,對其中的兩個測試案例,果如下:
可見兩個向量的歐氏距離已經接近於 0,識別效果非常好。
小結
本文為該項研究的初步實驗階段,由於樣本字元的數目較少,選取了50 個樣本用來訓練,對10 個待檢數字字元進行識別和模擬,成功識別出字元的個數為9 個,識別效率為90.0%。對於神經網路而言,在這樣少的訓練樣本的情況下,能夠取的這種效果已經比較成功,表明該方法具有較好識別效能。