國內不少論壇都存在跨站指令碼漏洞,國外也很多這樣的例子,甚至Google也出現過,不過在12月初時修正了。(編者註:關於跨站指令碼漏洞攻擊,讀者可參閱《詳解XSS跨站指令碼攻擊》)。跨站攻擊很容易就可以構造,而且非常隱蔽,不易被查覺(通常盜取資訊後馬上跳回原頁面)。
如何攻擊,在此不作說明(也不要問我),主要談談如何防範。首先,跨站指令碼攻擊都是由於對使用者的輸入沒有進行嚴格的過濾造成的,所以我們必須在所有資料進入我們的網站和資料庫之前把可能的危險攔截。針對非法的HTML程式碼封裝括單雙引號等,可以使用htmlentities() 。
<?php
$str = "A 'quote' is <b>bold</b>";
// Outputs: A 'quote' is <b>bold</b>
echo htmlentities($str);
// Outputs: A 'quote' is <b>bold</b>
echo htmlentities($str, ENT_QUOTES);
?>
這樣可以使非法的指令碼失效。
但是要注意一點,htmlentities()預設編碼為 ISO-8859-1,如果你的非法指令碼編碼為其它,那麼可能無法過濾掉,同時瀏覽器卻可以識別和執行。這個問題我先找幾個網站測試後再說。
這裡提供一個過濾非法指令碼的函數:
function RemoveXSS($val) {
// remove all non-printable characters. CR(0a) and LF(0b) and TAB(9) are allowed
// this prevents some character re-spacing such as <javascript>
// note that you have to handle splits with , , and later since they *are* allowed in some inputs
$val = preg_replace('/([x00-x08][x0b-x0c][x0e-x20])/', '', $val);
// straight replacements, the user should never need these since they're normal characters
// this prevents like <IMG SRC=@avascript:a&
_#X6Cert('XSS')>
$search = 'abcdefghijklmnopqrstuvwxyz';
$search .= 'ABCDEFGHIJKLMNOPQRSTUVWXYZ';
$search .= '1234567890!@#$%^&*()';
$search .= '~`";:? /={}[]-_|'';