寫了個php識別驗證碼的小程式-歡迎大家排磚。
近期研究一些突破驗證碼方面的知識,記錄下來。一方面算是對這幾天學習知識的總結協助自己理解;另一方面希望對研究這方面的技術同學有所協助;另外也希望引起網站管理者的注意,在提供驗證碼時多些考慮進去。由於剛剛接觸這方面的知識,理解比較淺顯,有錯誤再所難免,歡迎拍磚。
驗證碼的作用: 有效防止某個駭客對某一個特定註冊使用者用特定程式暴力破解方式進行不斷的登陸嘗試。其實現代的驗證碼一般是防止機器大量註冊的,防止機器批量發帖回複。目前,不少網站為了防止使用者利用機器人自動註冊、登入、灌水,都採用了驗證碼技術。
所謂驗證碼,就是將一串隨機產生的數字或符號,產生一幅圖片,圖片裡加上一些幹擾象素(防止OCR),由使用者肉眼識別其中的驗證碼資訊,輸入表單提交網站驗證,驗證成功後才能使用某項功能。
我們最常見的驗證碼
1,四位元字,隨機的一數字字串,最原始的驗證碼,驗證作用幾乎為零。
2,隨機數字圖片驗證碼。圖片上的字元比較中規中矩,有的可能加入一些隨機幹擾素,還有一些是隨機字元顏色,驗證作用比上一個好。沒有基本圖形映像學知識的人,不可破!
3,各種圖片格式的隨機數字+隨機大寫英文字母+隨機幹擾像素+隨機位置。
4,漢字是註冊目前最新的驗證碼,隨機產生,打起來更難了,影響使用者體驗,所以,一般應用的比較少。
簡單起見,我們這次說明的主要對象是第2種類型的,我們先看幾種網上比較常見的這種驗證碼的圖片.
這三種樣式,基本上能代表2中所提到的驗證碼類型,初步看起來第一個圖片最容易破解,第二個次之,第三個更難,第四個最難。
真實情況那?其實這三種圖片破解難度相同。
第一個圖片,最容易,圖片背景和數字都使用相同的顏色,字元規整,字元位置統一。
第二個圖片,看似不容易,其實仔細研究會發現其規則,背景色和幹擾素無論怎麼變化,驗證字元字元規整,顏色相同,所以排除幹擾素非常容易,只要是非字元色素全部排除即可。
第三個圖片,看似更複雜,處理上面提到背景色和幹擾素一直變化外,驗證字元的顏色也在變化,並且各個字元的顏色也各不相同。看似無法突破這個驗證碼,本篇文章,就一這種類型驗證碼為例說明,第四個圖片,同學們自己搞。
第四個圖片,除了第三個圖片上提到的特徵外,又在文字上加了兩條直線幹擾率,看似困難其實,很容易去掉。
驗證碼識別一般分為以下幾個步驟:
1. 取出字模
2. 二值化
3. 計算特徵
4. 對照樣本
1:取出字模
識別驗證碼,畢竟不是專業的OCR識別,並且,由於各個網站的驗證碼各不相同,所以,最常見的方法就是就是建立這個驗證碼的特徵碼庫。去字模時,我們需要多下載幾張圖片,使這些圖片中,包括所有的字元,我們這裡的字母只有圖片,所以,只要收集到包括0-9的圖片即可。
2:二值化
二值化就是把圖片上的驗證數字上每個象素用一種數字表示1,其他部分用0表示。這樣就可以計算出每個數字字模,記錄下這些字模來,當作key即可。
3:計算特徵
把要識別的圖片,進行二值化,得到圖片特徵。
4:對照樣本
把步驟3種的圖片特徵碼和驗證碼的字模進行對比,得到驗證圖片上的數字。
使用目前這種方法,對驗證碼的識別基本上可以做到100%。
通過以上步驟,您可能說了,並沒有發現如何取出幹擾素啊!其實取出幹擾素的方法很簡單,幹擾素的一個重要特徵是,不能影響驗證碼的顯示效果,所以製作幹擾素時它的RGB可能低於或者高於某個特定值,比如我給的例子中的圖片,幹擾素的RGB各項值是不會超過125的,所以,這樣我們就很容易去掉幹擾素了。
------解決方案--------------------
我構思過一種驗證碼
先產生一組字串...加上一點變化...即現時常用的方法
再在幹擾上做一些特別的處理
使用隨機數的位元影像...所有色彩都是隨機的
將兩張圖混合
產生一種類似浮雕或陰刻的映像
其色彩是相對而且混亂的的~只有一些模糊的邊界取向
所以無法二值化
只能使用人腦的模糊補完~
但沒空實現~而且效率較低
------解決方案--------------------
驗證碼顯示漢字大寫的數字,輸入阿拉伯數字,進行驗證
------解決方案--------------------
支援一下!
不錯
------解決方案--------------------
從美工角度,不宜過於複雜,不然很難看的。漂亮的背景加上漂亮的幾個數字,可以是幾種顏色的數字,就可以。同時占的地方要小,高為11到15像素正好,大了就難看了。
樓主你要多給點分給我,現在窮人,分數太少了。他們動不動幾萬分,不缺。
------解決方案--------------------
這個是接分的?
------解決方案--------------------
頂了
------解決方案--------------------
!
------解決方案--------------------
study..
------解決方案--------------------
學習了
------解決方案--------------------
http://blog.csdn.net/luojxun/archive/2008/09/27/2979694.aspx
產生的隨機碼樓主的方法就無法識別。呵呵
------解決方案--------------------
呵呵,有空看一下recaptcha老外的東東,那叫有才
------解決方案--------------------
作用不大,如果是onclick激發的層重寫你這個識別就沒用了。如果寫成序列密碼卡類型的驗證碼根本就沒有圖片,只是按照二維數組填寫。也是識別不了。
------解決方案--------------------
不知道樓主寫出來幹啥用?如果是我,費那心還不如睡個懶覺...
------解決方案--------------------
關注啊
------解決方案--------------------
學習了
------解決方案--------------------
引用:
會增加二值化的難度,呵呵,不過理論上說,人腦能完成的模糊補完,
機器也可以完成,可能就是效果不佳。