今天編寫web程式時出現一個Bug,如下面兩個圖所示:
在原始碼中,代碼的結構是沒有問題的,而Firefox將1/2/3/25/26行標記為紅色,意思是說有問題。再到Firebug中一看,發現本應該在head部分的meta/title/script/style等標籤,全都跑到了body下面!這是怎麼回事兒呢?用validator.w3.org一驗證,發現一條錯誤說:
這一個character "" not allowed in prolog的錯誤,標記的紅色在<!DOCTYPE的前面,到底是什麼意思?
經過研究,發現問題的根源在我一個引用的PHP檔案中。這個PHP檔案是utf-8的,而且是直接用記事本另存的,這樣就產生了傳說中的BOM(Byte Order Maker)。BOM頭導致了在各瀏覽器中解析HTML,出現錯誤!!
以下是從http://blog.sina.com.cn/s/blog_669fb0c30100vvf4.html 複製過來的文字,學習一下。
最近在寫php時,莫名其妙的瀏覽器頭多出一行空行,在網上搜尋一下,大致都是把檔案儲存為非BOM的UTF-8格式
在本地也解決了,但是上傳到伺服器依然有空行,搞了一個上午,都快崩潰了,最後決定自己想辦法解決,經過幾個小時的摸索終於有了完美解決方案了。
運用php顯示緩衝區顯示原理,成功去掉
在php的頭上加一行ob_start(); 然後再模板顯示前加個ob_end_clean();
在模板顯示後加個ob_end_flush();
這樣問題就解決了,現在給出整體結構執行個體代碼:
複製代碼 代碼如下:<?php
ob_start(); //此處為php邏輯操作
ob_end_clean(); //此處為php模板顯示
ob_end_flush();
?>
其它網友的補充:
開發中一直沒辦法解決的一個問題,收藏
頁面採用UTF8編碼,頭部和尾部用了模板包含檔案的方法,結果頭部和尾部無端端各多出一個約10px的空行,什麼也沒有。
原因是全部採用utf8編碼,包含檔案的時候,最後的二進位流中包含了多次UTF8 BOM標記,IE不能正常解析包含多個UTF8
BOM 標記的頁面,直接替換成實際顯示的斷行符號,這樣導致一個空行,而firefox卻沒有這個問題。
故如果模板採用包含的方法包含多個utf8檔案需要用ultraedit儲存時另存新檔功能 選擇utf8
無bom格式儲存即可。
另外,如果中文頁面在html head標記中將title標記放在<meta
http-equiv=”content-type” content=”text/html; charset=UTF-8″
/>前面會導致頁面空白。
所以utf8頁面應該使用標準順序
複製代碼 代碼如下:<meta http-equiv="content-type" content="text/html;
charset=UTF-8" />
<meta http-equiv="content-language" content="zh-CN"
/>
<meta name="robots" content="index,follow"
/>
<meta name="keywords" content=""
/>
<meta name="description" content=""
/>
<meta name="rating" content="general"
/>
<meta name="author" content=""
/>
<meta name="copyright" content=""
/>
<meta name="generator" content=""
/>
<title></title>
BOM頭:\xEF\xBB\xBF,PHP4、5尚對BOM無視,所以在解析前直接輸出。
對此 w3.org 標準 FAQ 中對此問題有一個專門的描述:
http://www.w3.org/International/questions/qa-utf8-bom
具體如下:
在UCS 編碼中有一個叫做”ZERO WIDTH NO-BREAK
SPACE”的字元,它的編碼是FEFF。而FFFE在UCS中是不存在的字元,所以不應該出現在實際傳輸中。UCS規範建議我們在傳輸位元組流前,先傳輸
字元”ZERO WIDTH NO-BREAK
SPACE”。這樣如果接收者收到FEFF,就表明這個位元組流是Big-Endian的;如果收到FFFE,就表明這個位元組流是Little-
Endian的。因此字元”ZERO WIDTH NO-BREAK SPACE”又被稱作BOM。
UTF-8不需要BOM來表明位元組順序,但可以用BOM來表明編碼方式。字元”ZERO WIDTH NO-BREAK
SPACE”的UTF-8編碼是EF BB BF。所以如果接收者收到以EF BB
BF開頭的位元組流,就知道這是UTF-8編碼了。
Windows就是使用BOM來標記文字檔的編碼方式的作業系統: WindowsXP Professional ,
預設字元集:中文
1) notepad : 可以自動識別出沒有帶 bom 的 utf-8 編碼格式檔案,但不可以控制儲存檔案時是否添加 bom ,
如果儲存檔案,那麼會統一添加 bom 。
2)editplus : 不能自動識別出沒有 bom 的 utf-8 編碼格式檔案,檔案儲存時,選擇UTF-8 格式,不會在檔案頭寫上
BOM header.
3) UltraEdit : 對於字元編碼的功能最為強大, 可以自動識別帶 bom 和不帶 bom 的 utf-8 檔案 (可以配置)
; 儲存的時候可以通過配置選擇是否添加 bom.
(特別需要注意的是,儲存一個建立立的檔案時,需要選擇另存新檔 utf-8 no bom 格式)
後來發現 Notepad ++ 也對於 utf-8 bom 支援比較好,推薦大家使用。
1、Dreamweaver中除去BOM的方法:ctrl+J -> 標題/編碼
-> 取消”包括Unicode簽名(BOM)”選擇。
BOM資訊是檔案開頭的一串隱藏的字元,用於讓某些編輯器識別這是個UTF-8編碼的檔案。但PHP在讀取檔案時會把這些字元讀出,從而形成了檔案開頭含有一些無法識別的字元的問題。
比如用UTF-8格式儲存的產生圖片的PHP檔案,因為檔案頭隱藏的BOM資訊也被下發,導致產生的圖片資料不對,瀏覽器無法識別。
要檢測一個UTF-8檔案是否含有BOM資訊,就是檢測檔案開頭的字三個符,是否為0xEF, 0xBB,
0xBF。下面這個小程式,使用者遍曆某個目錄下所有檔案,並檢測是否加了BOM。
將以下代碼另存新檔del_bom.php,修改需要檢測的目錄後運行。這樣可能有助於檢測是哪個檔案帶有了BOM資訊導致所有頁面開頭都有那麼一段空白。
<? php
//此檔案用於快速測試UTF8編碼的檔案是不是加了BOM,並可自動移除
//By Bob Shen
$basedir="."; //修改此行為需要檢測的目錄,點表示目前的目錄
$auto=1; //是否自動移除發現的BOM資訊。1為是,0為否。
//此檔案用於快速測試UTF8編碼的檔案是不是加了BOM,並可自動移除
//By Bob Shen
$basedir="."; //修改此行為需要檢測的目錄,點表示目前的目錄
$auto=1; //是否自動移除發現的BOM資訊。1為是,0為否。
//以下不用改動
if ($dh = opendir($basedir)) {
while (($file = readdir($dh)) !== false) {
if ($file!='.' && $file!='..'
&& !is_dir($basedir."/".$file))
echo "filename: $file ".checkBOM("$basedir/$file")."
<br>";
}
closedir($dh);
}
function checkBOM ($filename) {
global $auto;
$contents=file_get_contents($filename);
$charset[1]=substr($contents, 0, 1);
$charset[2]=substr($contents, 1, 1);
$charset[3]=substr($contents, 2, 1);
if (ord($charset[1])==239 &&
ord($charset[2])==187 &&
ord($charset[3])==191) {
if ($auto==1) {
$rest=substr($contents, 3);
rewrite ($filename, $rest);
return ("<font color=red>BOM found,
automatically
removed.</font>");
} else {
return ("<font color=red>BOM
found.</font>");
}
}
else return ("BOM Not Found.");
}
function rewrite ($filename, $data) {
$filenum=fopen($filename,"w");
flock($filenum,LOCK_EX);
fwrite($filenum,$data);
fclose($filenum);
}
?>