提示:我提取了《xslt從入門到精通》中關於空格解釋的核心部分,藉以拋磚引玉,希望大家踴躍參與討論。談談你對空格的理解。
只適合對xml檔案結構有一定瞭解的學者,不適合初學者。請按從上至下的順序閱讀。
對html檔案而言,空格不重要;然而,對xml而言,預設立場就是要保留空格結點(空格結點的解釋見下文)。
根據xml規範的規定,所謂空格是四種字元的任意組合序列:
-----------------------
空白字元(space),對應字元值為 #x20
返回字元(Carriage Return),對應字元值為 #xD
新行字元(Newline),對應字元值為 #xA
跳格字元(Tab),對應字元值為 #x9。
xml檔案的空格也會形成結點,也就是空格結點。空格結點屬於文字結點類型。
對xml和xslt而言,空格結點會牽涉到兩個議題:
-----------------------
1。在xml輸入檔案中決定哪些空格是重要的,xslt處理器要看見這些空格結點。而決定的密鑰就是xml:space屬性。
2。在xsl模板檔案中決定哪些空格是重要的,xslt處理器應將它複製到結果樹中,而決定的密鑰就是xsl:strip-space
和xsl:preserve-space這兩個命令。
“重要和不重要的空格結點”
-----------------------
若某組件的內容只能放組件,則該組件中的空格結點就是不重要的(Insignificant);
如果某組件的內容是#PCDATA的類型,則其內的空格結點應視為重要的(Signficant)。
至於組件內容混雜了文字內容和組件的情況則無從評判,應視組件及其內容之語意而定。
xslt處理器接觸到xml輸入檔案之前,會先由xml分析器進行分析
-----------------------
(1)xml:space屬性可以改變後續接手的xml應用程式處理空格結點的模式,例如,xslt處理器就會受xml:space屬性影響。
(2)xml檔案中任何一列標記或內容尾端的結尾的結尾符號全部會換成單一新行字元(#xA)。
(3)屬性值交給xml應用程式之前,xml分析器也應該先對屬性值做正常化的操作。這是因為不同的作業系統每一行文字列的結尾字元有不同的組合,例如,windows系統會由返回字元呵新行字元組成結尾符號,而Unix系統則僅由新行字元組
成結尾符號。xml分析器在讀取xml檔案之後,便先行將所有結尾符號換成單一新行字元,不僅統一了不同系統間不同結尾符號設計的差異性,同時也簡化了後續xml應用程式的的操作難度。這樣一個處理過程稱為“正常化(Normalization)”。
a,每一文字列的結尾符號都要正常化成單一的新行字元(#xA)。
b,任何一個空格符(#x20、#xD、#xA、#x9)都應換成一個空白字元(#x20)。
c,屬性值中若含有字參碼,則應替換成該參考字元,例如, 會換成新行字元(#xA)。
d,屬性值若含有實體參考,則應以其替換文字替換。
e,除此之外,任何字元都應直接放入正常化屬性值中。
f,最後,如果屬性類型不是CDATA,則xml分析器應該再進一步把屬性值前後的空白字元序列刪除,而且屬性值中間若有空格序列,也應該替換成單一空白字元。
xslt處理器把xml輸入檔案和xsl模板檔案的結構樹建好之後,會現把組件中相鄰的文字結點合并成單一的文字結點,然後再把一些文字結點抽掉。然而,如果文字結點符合下列條件之一,就會被保留下來:
-----------------------
(1)文字結點的父組件是空格保留組件名稱集(Set Of Whitespace-preserving Element Names)中的一員。
(2)文字結點中至少有一個非空格符。
(3)文字結點的某個祖先組件中有xml:space屬性,其值為preserve,而且較近的祖先組件中沒有其他xml:space屬性值為default。除此之外的文字結點逗會被抽掉。
對xsl模板而言,所謂的空格保留組件名稱集只有一個xsl:text組件可用。xsl模板檔案的空格結點都會被刪除,但是,如果空格結點出現在xsl:text組件中就會被保留下來。