規則 1:絕不要信任外部資料或輸入
關於 Web 應用程式安全性,必須認識到的第一件事是不應該信任外部資料。外部資料(outside data) 包括不是由程式員在 php 代碼中直接輸入的任何資料。在採取措施確保安全之前,來自任何其他來源(比如 GET 變數、表單 POST、資料庫、設定檔、會話變數或 cookie)的任何資料都是不可信任的。
例如,下面的資料元素可以被認為是安全的,因為它們是在 PHP 中設定的。
清單 1. 安全無暇的代碼
$myUsername = 'tmyer';
$arrayUsers = array('tmyer', 'tom', 'tommy');
define("GREETING", 'hello there' . $myUsername);
?>
但是,下面的資料元素都是有瑕疵的。
清單 2. 不安全、有瑕疵的代碼
$myUsername = $_POST['username']; //tainted!
$arrayUsers = array($myUsername, 'tom', 'tommy'); //tainted!
define("GREETING", 'hello there' . $myUsername); //tainted!
?>
為 什麼第一個變數 $myUsername 是有瑕疵的?因為它直接來自表單 POST。使用者可以在這個輸入欄位中輸入任何字串,包括用來清除檔案或運行以前上傳的檔案的惡意命令。您可能會問,“難道不能使用只接受字母 A-Z 的用戶端(javascrīpt)表單檢驗指令碼來避免這種危險嗎?”是的,這總是一個有好處的步驟,但是正如在後面會看到的,任何人都可以將任何錶單下載 到自己的機器上,修改它,然後重新提交他們需要的任何內容。
解決方案很簡單:必須對 $_POST['username'] 運行清理代碼。如果不這麼做,那麼在使用 $myUsername 的任何其他時候(比如在數組或常量中),就可能汙染這些對象。
對使用者輸入進行清理的一個簡單方法是,使用Regex來處理它。在這個樣本中,只希望接受字母。將字串限制為特定數量的字元,或者要求所有字母都是小寫,這可能也是個好主意。
清單 3. 使使用者輸入變得安全
$myUsername = cleanInput($_POST['username']); //clean!
$arrayUsers = array($myUsername, 'tom', 'tommy'); //clean!
define("GREETING", 'hello there' . $myUsername); //clean!
function cleanInput($input){
$clean = strtolower($input);
$clean = PReg_replace("/[^a-z]/", "", $clean);
$clean = substr($clean,0,12);
return $clean;
}
?>
規則 2:禁用那些使安全性難以實施的 PHP 設定
已經知道了不能信任使用者輸入,還應該知道不應該信任機器上配置 PHP 的方式。例如,要確保禁用 register_globals。如果啟用了 register_globals,就可能做一些粗心的事情,比如使用 $variable 替換同名的 GET 或 POST 字串。通過禁用這個設定,PHP 強迫您在正確的名稱空間中引用正確的變數。要使用來自表單 POST 的變數,應該引用 $_POST['variable']。這樣就不會將這個特定變數誤會成 cookie、會話或 GET 變數。
規則 3:如果不能理解它,就不能保護它
一些開發人員使用奇怪的文法,或者將語句組織得很緊湊,形成簡短但是含義模糊的代碼。這種方式可能效率高,但是如果您不理解代碼正在做什麼,那麼就無法決定如何保護它。
例如,您喜歡下面兩段代碼中的哪一段?
清單 4. 使代碼容易得到保護
//obfuscated code
$input = (isset($_POST['username']) ? $_POST['username']:'');
//unobfuscated code
$input = '';
if (isset($_POST['username'])){
$input = $_POST['username'];
}else{
$input = '';
}
?>
在第二個比較清晰的程式碼片段中,很容易看出 $input 是有瑕疵的,需要進行清理,然後才能安全地處理。
規則 4:“縱深防禦” 是新的法寶
本教程將用樣本來說明如何保護線上表單,同時在處理表單的 PHP 代碼中採用必要的措施。同樣,即使使用 PHP regex 來確保 GET 變數完全是數位,仍然可以採取措施確保 SQL 查詢使用轉義的使用者輸入。
縱深防禦不只是一種好思想,它可以確保您不會陷入嚴重的麻煩。
既然已經討論了基本規則,現在就來研究第一種威脅:SQL 插入式攻擊。
防止 SQL 插入式攻擊
在 SQL 插入式攻擊 中,使用者通過操縱表單或 GET 查詢字串,將資訊添加到資料庫查詢中。例如,假設有一個簡單的登入資料庫。這個資料庫中的每個記錄都有一個使用者名稱欄位和一個密碼欄位。構建一個登入表單,讓使用者能夠登入。
清單 5. 簡單的登入表單
Login
這個表單接受使用者輸入的使用者名稱和密碼,並將使用者輸入提交給名為 verify.php 的檔案。在這個檔案中,PHP 處理來自登入表單的資料,如下所示:
清單 6. 不安全的 PHP 表單處理代碼
$okay = 0;
$username = $_POST['user'];
$pw = $_POST['pw'];
$sql = "select count(*) as ctr from users where username='".$username."' and password='". $pw."' limit 1";
$result = MySQL_query($sql);
while ($data = mysql_fetch_object($result)){
if ($data->ctr == 1){
//they're okay to enter the application!
$okay = 1;
}
}
if ($okay){
$_session['loginokay'] = true;
header("index.php");
}else{
header("login.php");
}
?>
這 段代碼看起來沒問題,對嗎?世界各地成百(甚至成千)的 PHP/MySQL 網站都在使用這樣的代碼。它錯在哪裡?好,記住 “不能信任使用者輸入”。這裡沒有對來自使用者的任何資訊進行轉義,因此使應用程式容易受到攻擊。具體來說,可能會出現任何類型的 SQL 插入式攻擊。
例如,如果使用者輸入 foo 作為使用者名稱,輸入 ' or '1'='1 作為密碼,那麼實際上會將以下字串傳遞給 PHP,然後將查詢傳遞給 MySQL:
$sql = "select count(*) as ctr from users where username='foo' and password='' or '1'='1' limit 1";
?>
這個查詢總是返回計數值 1,因此 PHP 會允許進行訪問。通過在密碼字串的末章節附註入某些惡意 SQL,駭客就能裝扮成合法的使用者。
解 決這個問題的辦法是,將 PHP 的內建 mysql_real_escape_string() 函數用作任何使用者輸入的封裝器。這個函數對字串中的字元進行轉義,使字串不可能傳遞撇號等特殊字元並讓 MySQL 根據特殊字元進行操作。清單 7 展示了帶轉義處理的代碼。
清單 7. 安全的 PHP 表單處理代碼
$okay = 0;
$username = $_POST['user'];
$pw = $_POST['pw'];
$sql = "select count(*) as ctr from users where username='".mysql_real_escape_string($username)."' and password='". mysql_real_escape_string($pw)."' limit 1";
$result = mysql_query($sql);
while ($data = mysql_fetch_object($result)){
if ($data->ctr == 1){
//they're okay to enter the application!
$okay = 1;
}
}
if ($okay){
$_SESSION['loginokay'] = true;
header("index.php");
}else{
header("login.php");
}
?>
使用 mysql_real_escape_string() 作為使用者輸入的封裝器,就可以避免使用者輸入中的任何惡意 SQL 注入。如果使用者嘗試通過 SQL 注入傳遞畸形的密碼,那麼會將以下查詢傳遞給資料庫:
select count(*) as ctr from users where username='foo' and password='\' or \'1\'=\'1' limit 1"
資料庫中沒有任何東西與這樣的密碼匹配。僅僅採用一個簡單的步驟,就堵住了 Web 應用程式中的一個大漏洞。這裡得出的經驗是,總是應該對 SQL 查詢的使用者輸入進行轉義。
但是,還有幾個安全性漏洞需要堵住。下一項是操縱 GET 變數。
防止使用者操縱 GET 變數
在前一節中,防止了使用者使用畸形的密碼進行登入。如果您很聰明,應該應用您學到的方法,確保對 SQL 陳述式的所有使用者輸入進行轉義。
但 是,使用者現在已經安全地登入了。使用者擁有有效密碼,並不意味著他將按照規則行事 —— 他有很多機會能夠造成損害。例如,應用程式可能允許使用者查看特殊的內容。所有連結指向 template.php?pid=33 或 template.php?pid=321 這樣的位置。URL 中問號後面的部分稱為查詢字串。因為查詢字串直接放在 URL 中,所以也稱為 GET 查詢字串。
在 PHP 中,如果禁用了 register_globals,那麼可以用 $_GET['pid'] 訪問這個字串。在 template.php 頁面中,可能會執行與清單 8 相似的操作。
清單 8. 樣本 template.php
$pid = $_GET['pid'];
//we create an object of a fictional class Page
$obj = new Page;
$content = $obj->fetchPage($pid);
//and now we have a bunch of PHP that displays the page
?>
這 裡有什麼錯嗎?首先,這裡隱含地相信來自瀏覽器的 GET 變數 pid 是安全的。這會怎麼樣呢?大多數使用者沒那麼聰明,無法構造出語義攻擊。但是,如果他們注意到瀏覽器的 URL 位置域中的 pid=33,就可能開始搗亂。如果他們輸入另一個數字,那麼可能沒問題;但是如果輸入別的東西,比如輸入 SQL 命令或某個檔案的名稱(比如 /etc/passwd),或者搞別的惡作劇,比如輸入長達 3,000 個字元的數值,那麼會發生什麼呢?
在這種情況下,要記住基本規則,不要信任使用者輸入。應用程式開發人員知道 template.php 接受的個人標識符(PID)應該是數字,所以可以使用 PHP 的 is_numeric() 函數確保不接受非數位 PID,如下所示:
清單 9. 使用 is_numeric() 來限制 GET 變數
$pid = $_GET['pid'];
if (is_numeric($pid)){
//we create an object of a fictional class Page
$obj = new Page;
$content = $obj->fetchPage($pid);
//and now we have a bunch of PHP that displays the page
}else{
//didn't pass the is_numeric() test, do something else!
}
?>
這個方法似乎是有效,但是以下這些輸入都能夠輕鬆地通過 is_numeric() 的檢查:
100 (有效)
100.1 (不應該有小數位)
+0123.45e6 (科學計數法 —— 不好)
0xff33669f (十六進位 —— 危險!危險!)
那麼,有安全意識的 PHP 開發人員應該怎麼做呢?多年的經驗表明,最好的做法是使用Regex來確保整個 GET 變數由數字組成,如下所示:
清單 10. 使用Regex限制 GET 變數
$pid = $_GET['pid'];
if (strlen($pid)){
if (!ereg("^[0-9]+$",$pid)){
//do something appropriate, like maybe logging them out or sending them back to home page
}
}else{
//empty $pid, so send them back to the home page
}
//we create an object of a fictional class Page, which is now
//moderately protected from evil user input
$obj = new Page;
$content = $obj->fetchPage($pid);
//and now we have a bunch of PHP that displays the page
?>
需 要做的只是使用 strlen() 檢查變數的長度是否非零;如果是,就使用一個全數字Regex來確保資料元素是有效。如果 PID 包含字母、斜線、點號或任何與十六進位相似的內容,那麼這個常式捕獲它並將頁面從使用者活動中屏蔽。如果看一下 Page 類幕後的情況,就會看到有安全意識的 PHP 開發人員已經對使用者輸入 $pid 進行了轉義,從而保護了 fetchPage() 方法,如下所示:
清單 11. 對 fetchPage() 方法進行轉義
class Page{
function fetchPage($pid){
$sql = "select pid,title,desc,kw,content,status from page where pid='".mysql_real_escape_string($pid)."'";
}
}
?>
您可能會問,“既然已經確保 PID 是數字,那麼為什麼還要進行轉義?” 因為不知道在多少不同的上下文和情況中會使用 fetchPage() 方法。必須在調用這個方法的所有地方進行保護,而方法中的轉義體現了縱深防禦的意義。
如 果使用者嘗試輸入非常長的數值,比如長達 1000 個字元,試圖發起緩衝區溢位攻擊,那麼會發生什麼呢?下一節更詳細地討論這個問題,但是目前可以添加另一個檢查,確保輸入的 PID 具有正確的長度。您知道資料庫的 pid 欄位的最大長度是 5 位,所以可以添加下面的檢查。
清單 12. 使用Regex和長度檢查來限制 GET 變數
$pid = $_GET['pid'];
if (strlen($pid)){
if (!ereg("^[0-9]+$",$pid) && strlen($pid) > 5){
//do something appropriate, like maybe logging them out or sending them back to home page
}
} else {
//empty $pid, so send them back to the home page
}
//we create an object of a fictional class Page, which is now
//even more protected from evil user input
$obj = new Page;
$content = $obj->fetchPage($pid);
//and now we have a bunch of PHP that displays the page
?>
現在,任何人都無法在資料庫應用程式中塞進一個 5,000 位的數值 —— 至少在涉及 GET 字串的地方不會有這種情況。想像一下駭客在試圖突破您的應用程式而遭到挫折時咬牙切齒的樣子吧!而且因為關閉了錯誤報表,駭客更難進行偵察。
緩衝區溢位攻擊
緩衝區溢位攻擊 試圖使 PHP 應用程式中(或者更精確地說,在 Apache 或底層作業系統中)的記憶體配置緩衝區發生溢出。請記住,您可能是使用 PHP 這樣的進階語言來編寫 Web 應用程式,但是最終還是要調用 C(在 Apache 的情況下)。與大多數低級語言一樣,C 對於記憶體配置有嚴格的規則。
緩衝區溢位攻擊向緩衝區發送大量資料,使部分資料溢出到相鄰的記憶體緩衝區,從而破壞緩衝區或者重寫邏輯。這樣就能夠造成拒絕服務、破壞資料或者在遠程伺服器上執行惡意代碼。
防止緩衝區溢位攻擊的惟一方法是檢查所有使用者輸入的長度。例如,如果有一個表單元素要求輸入使用者的名字,那麼在這個域上添加值為 40 的 maxlength 屬性,並在後端使用 substr() 進行檢查。清單 13 給出表單和 PHP 代碼的簡短樣本。
清單 13. 檢查使用者輸入的長度
if ($_POST['submit'] == "go"){
$name = substr($_POST['name'],0,40);
}
?>
為 什麼既提供 maxlength 屬性,又在後端進行 substr() 檢查?因為縱深防禦總是好的。瀏覽器防止使用者輸入 PHP 或 MySQL 不能安全地處理的超長字串(想像一下有人試圖輸入長達 1,000 個字元的名稱),而後端 PHP 檢查會確保沒有人遠程地或者在瀏覽器中操縱表單資料。
正如您看到的,這種方式與前一節中使用 strlen() 檢查 GET 變數 pid 的長度相似。在這個樣本中,忽略長度超過 5 位的任何輸入值,但是也可以很容易地將值截短到適當的長度,如下所示:
清單 14. 改變輸入的 GET 變數的長度
$pid = $_GET['pid'];
if (strlen($pid)){
if (!ereg("^[0-9]+$",$pid)){
//if non numeric $pid, send them back to home page
}
}else{
//empty $pid, so send them back to the home page
}
//we have a numeric pid, but it may be too long, so let's check
if (strlen($pid)>5){
$pid = substr($pid,0,5);
}
//we create an object of a fictional class Page, which is now
//even more protected from evil user input
$obj = new Page;
$content = $obj->fetchPage($pid);
//and now we have a bunch of PHP that displays the page
?>
注 意,緩衝區溢位攻擊並不限於長的數字串或字母串。也可能會看到長的十六進位字串(往往看起來像 \xA3 或 \xFF)。記住,任何緩衝區溢位攻擊的目的都是淹沒特定的緩衝區,並將惡意代碼或指令放到下一個緩衝區中,從而破壞資料或執行惡意代碼。對付十六進位緩 沖區溢出最簡單的方法也是不允許輸入超過特定的長度。
如果您處理的是允許在資料庫中輸入較長條目的表單文本區,那麼無法在用戶端輕鬆地限制資料的長度。在資料到達 PHP 之後,可以使用Regex清除任何像十六進位的字串。
清單 15. 防止十六進位字串
if ($_POST['submit'] == "go"){
$name = substr($_POST['name'],0,40);
//clean out any potential hexadecimal characters
$name = cleanHex($name);
//continue processing....
}
function cleanHex($input){
$clean = preg_replace("![\][xX]([A-Fa-f0-9]{1,3})!", "",$input);
return $clean;
}
?>
您 可能會發現這一系列操作有點兒太嚴格了。畢竟,十六進位串有合法的用途,比如輸出外語中的字元。如何部署十六進位 regex 由您自己決定。比較好的策略是,只有在一行中包含過多十六進位串時,或者字串的字元超過特定數量(比如 128 或 255)時,才刪除十六進位串。
跨網站指令碼攻擊
在跨網站指令碼(XSS)攻擊中,往往有一個惡意使用者在表單中(或通過其他使用者輸入方式)輸入資訊,這些輸入將惡 意的用戶端標記插入過程或資料庫中。例如,假設網站上有一個簡單的來客登記簿程式,讓訪問者能夠留下姓名、電子郵件地址和簡短的訊息。惡意使用者可以利用這 個機會插入簡短訊息之外的東西,比如對於其他使用者不合適的圖片或將使用者重新導向到另一個網站的 Javascrīpt,或者竊取 cookie 資訊。
幸運的是,PHP 提供了 strip_tags() 函數,這個函數可以清除任何包圍在 HTML 標籤中的內容。strip_tags() 函數還允許提供允許標記的列表,比如 或 。
瀏覽器內的資料操縱
有一類瀏覽器外掛程式允許使用者篡改頁面上的頭部元素和表單元素。使用 Tamper Data(一個 Mozilla 外掛程式),可以很容易地操縱包含許多隱藏文字欄位的簡單表單,從而向 PHP 和 MySQL 發送指令。
使用者在點擊表單上的 Submit 之前,他可以啟動 Tamper Data。在提交表單時,他會看到表單資料欄位的列表。Tamper Data 允許使用者篡改這些資料,然後瀏覽器完成表單提交。
讓我們回到前面建立的樣本。已經檢查了字串長度、清除了 HTML 標籤並刪除了十六進位字元。但是,添加了一些隱藏的文字欄位,如下所示:
清單 17. 隱藏變數
if ($_POST['submit'] == "go"){
//strip_tags
$name = strip_tags($_POST['name']);
$name = substr($name,0,40);
//clean out any potential hexadecimal characters
$name = cleanHex($name);
//continue processing....
}
function cleanHex($input){
$clean = preg_replace("![\][xX]([A-Fa-f0-9]{1,3})!", "",$input);
return $clean;
}
?>
注意,隱藏變數之一暴露了表名:users。還會看到一個值為 create 的 action 欄位。只要有基本的 SQL 經驗,就能夠看出這些命令可能控制著中介軟體中的一個 SQL 引擎。想搞大破壞的人只需改變表名或提供另一個選項,比如 delete。
現在還剩下什麼問題呢?遠端資料表單提交。
遠端資料表單提交
Web 的好處是可以分享資訊和服務。壞處也是可以分享資訊和服務,因為有些人做事毫無顧忌。
以 表單為例。任何人都能夠訪問一個 Web 網站,並使用瀏覽器上的 File > Save As 建立表單的本機複本。然後,他可以修改 action 參數來指向一個完整 URL(不指向 formHandler.php,而是指向 http://www.yoursite.com/formHandler.php,因為表單在這個網站上),做他希望的任何修改,點擊 Submit,伺服器會把這個表單資料作為合法通訊流接收。
首先可能考慮檢查 $_SERVER['HTTP_REFERER'],從而判斷請求是否來自自己的伺服器,這種方法可以擋住大多數惡意使用者,但是擋不住最高明的駭客。這些人足夠聰明,能夠篡改頭部中的引用者資訊,使表單的遠程副本看起來像是從您的伺服器提交的。
處理遠端資料表單提交更好的方式是,根據一個惟一的字串或時間戳記產生一個令牌,並將這個令牌放在會話變數和表單中。提交表單之後,檢查兩個令牌是否匹配。如果不匹配,就知道有人試圖從表單的遠程副本發送資料。
要建立隨機的令牌,可以使用 PHP 內建的 md5()、uniqid() 和 rand() 函數,如下所示:
清單 18. 防禦遠端資料表單提交
session_start();
if ($_POST['submit'] == "go"){
//check token
if ($_POST['token'] == $_SESSION['token']){
//strip_tags
$name = strip_tags($_POST['name']);
$name = substr($name,0,40);
//clean out any potential hexadecimal characters
$name = cleanHex($name);
//continue processing....
}else{
//stop all processing! remote form posting attempt!
}
}
$token = md5(uniqid(rand(), true));
$_SESSION['token']= $token;
function cleanHex($input){
$clean = preg_replace("![\][xX]([A-Fa-f0-9]{1,3})!", "",$input);
return $clean;
}
?>
這種技術是有效,這是因為在 PHP 中會話資料無法在伺服器之間遷移。即使有人獲得了您的 PHP 原始碼,將它轉移到自己的伺服器上,並向您的伺服器提交資訊,您的伺服器接收的也只是空的或畸形的會話令牌和原來提供的表單令牌。它們不匹配,遠端資料表單提交就失敗了。