Java編程中更新XML文檔的常用方法

來源:互聯網
上載者:User
xml|編程 本文簡要的討論了Java語言編程中更新XML文檔的四種常用方法,並且分析這四種方法的優劣。其次,本文還對如何控制Java程式輸出的XML文檔的格式做了展開論述。



JAXP是Java API for XML Processing的英文字頭縮寫,中文含義是:用於XML文檔處理的使用Java語言編寫的編程介面。JAXP支援DOM、SAX、XSLT等標準。為了增強JAXP使用上的靈活性,開發人員特別為JAXP設計了一個Pluggability Layer,在Pluggability Layer的支援之下,JAXP既可以和具體實現DOM API、SAX API 的各種XML解析器(XML Parser,例如Apache Xerces)聯合工作,又可以和具體執行XSLT標準的XSLT處理器(XSLT Processor,例如Apache Xalan)聯合工作。應用Pluggability Layer的好處在於:我們只需要熟悉JAXP各個編程介面的定義即可,而不需要對所採用的具體的XML解析器、XSLT處理器有很深入的瞭解。比如在某個Java程式中,通過JAXP調用XML解析器Apache Crimson對XML文檔進行處理,如果我們希望使用別的XML解析器(比如Apache Xerces),以便提高該程式的效能,那麼原程式碼可能不需要任何改變,直接就可以使用(你所需要做的事情只是將包含Apache Xerces代碼的jar檔案加入到環境變數CLASSPATH中,而將包含Apache Crimson代碼的jar檔案在環境變數CLASSPATH中刪除)。



目前JAXP已經應用的十分普遍了,可以說是Java語言中處理XML文檔的標準API。有些初學者在學習使用JAXP的過程中,經常會提出這樣的問題:我編寫的程式對DOM Tree做了更新,但是當程式退出以後,原始的XML文檔並沒有改變,還是老樣子,如何?對原始XML文檔和DOM Tree的同步更新呢?咋一看來,在JAXP中似乎沒有提供相應的介面/方法/類,這是很多初學者都感到困惑的問題。本文的主旨就在於解決這個問題,簡單的介紹幾種常用的同步更新原始XML文檔和DOM Tree的方法。為了縮小討論的範圍,本文所涉及的XML解析器僅包括Apache Crimson和Apache Xerces,而XSLT處理器僅僅使用Apache Xalan。



方法一:直接讀寫XML文檔



這也許是最笨最原始的辦法了。當程式擷取DOM Tree之後,應用DOM模型的Node介面的各個方法對DOM Tree進行更新,下一步應該對原始的XML文檔進行更新了。我們可以運用遞迴的辦法或者是應用TreeWalker類,遍曆整個DOM Tree,與此同時,將DOM Tree的每一個節點/元素依次寫入到預先開啟的原始XML文檔中,當DOM Tree被遍曆完全之後,DOM Tree和原始的XML文檔就實現了同步更新。實際中,這個方法極少使用,不過如果你要編程實現自己的XML解析器,這種方法還是有可能用得上的。



方法二:使用XmlDocument類



使用XmlDocument類?JAXP中分明沒有這個類呀!是不是作者搞錯了?沒有錯!就是使用XmlDocument類,確切的說,是使用XmlDocument類的write()方法。



在上文已經提到過,JAXP可以和各種各樣的XML解析器聯合使用,這次我們選用的XML解析器是Apache Crimson。XmlDocument(org.apache.crimson.tree.XmlDocument)是Apache Crimson的一個類,並不包含於標準的JAXP中,難怪在JAXP的文檔中找不到XmlDocument類的芳蹤呢。現在問題出來了,如何應用XmlDocument類來實現更新XML文檔的功能?在XmlDocument類中提供了下面三個write()方法(根據Crimson最新的版本------Apache Crimson 1.1.3):







public void write (OutputStream out) throws IOException

public void write (Writer out) throws IOException

public void write (Writer out, String encoding) throws IOException







上述三個write()方法的主要作用就是輸出DOM Tree中的內容到特定的輸出介質中,比如檔案輸出資料流、應用程式控制台等等。那麼又如何使用上述三個write()方法呢?請看下面的Java程式碼片斷:





String name="fancy";

DocumentBuilder parser;

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

try

{

parser = factory.newDocumentBuilder();

Document doc = parser.parse("user.xml");

Element newlink=doc.createElement(name);

doc.getDocumentElement().appendChild(newlink);

((XmlDocument)doc).write(new FileOutputStream(new File("xuser1.xml")));

}

catch (Exception e)

{

//to log it

}







在上面的代碼中,首先建立了一個Document對象doc,擷取完整的DOM Tree,然後應用Node介面的appendChild()方法,在DOM Tree的最後追加了一個新節點(fancy),最後調用XmlDocument類的write(OutputStream out)方法,把DOM Tree中的內容輸出到xuser.xml中(其實也可以輸出到user.xml,更新原始的XML文檔,在這裡為了便於做對比,故而輸出到xuser.xml檔案中)。需要注意的是不能直接對Document對象doc直接調用write()方法,因為JAXP的Document介面並沒有定義任何write()方法,所以必須將doc由Document對象強制轉換為XmlDocument對象,然後才能調用write()方法,在上面的代碼中使用的是write(OutputStream out)方法,這個方法使用預設的UTF-8編碼輸出DOM Tree中的內容到特定的輸出介質中,如果DOM Tree中包含中文字元,那麼輸出的結果有可能是亂碼,亦即存在所謂的"漢字問題\\",解決的辦法是使用write (Writer out, String encoding)方法,顯式指定輸出時的編碼,例如將第二個參數設為"GB2312",這時即不存在"漢字問題\\",輸出結果能夠正常顯示中文字元。



完整的例子請參考下列檔案: AddRecord.java(見附件)、user.xml(見附件)。該例子的運行環境為:Windows XP Professional、JDK 1.3.1。為了能夠正常編譯運行AddRecord.java這個程式,你需要到網址http://xml.apache.org/dist/crimson/去下載Apache Crimson,並將所擷取的crimson.jar檔案加入到環境變數CLASSPATH中。



注意:



Apache Crimson的前身是Sun Project X Parser,後來不知何故,由X Parser演變為Apache Crimson,至今Apache Crimson的很多代碼都是從X Parser中直接移植過來的。比如上文用到的XmlDocument類,它在X Parser中是com.sun.xml.XmlDocument,到了Apache Crimson中搖身一變,就變成了org.apache.crimson.tree.XmlDocument類,其實它們的絕大部分代碼是一樣的,可能就package語句和import語句以及檔案開頭的一段lience有所不同而已。早期的JAXP是和X Parser捆綁在一起的,因此一些老的程式使用了com.sun.xml包,如果你現在重新編譯它們,有可能不能通過,肯定就是因為這個原因。後來的JAXP和Apache Crimson捆綁在一起,比如JAXP 1.1,如果你使用JAXP 1.1,那麼不需要額外下載Apache Crimson,也能夠正常編譯運行上面的例子(AddRecord.java)。最新的JAXP 1.2 EA(Early Access)改弦更張,採用效能更好的Apache Xalan和Apache Xerces分別作為XSLT處理器和XML解析器,不能直接支援Apache Crimson了,所以如果你的開發環境採用了JAXP 1.2 EA或者是Java XML Pack(內含JAXP 1.2 EA),那麼將無法直接編譯運行上面的例子(AddRecord.java),你需要額外下載並安裝Apache Crimson。



方法三:使用TransformerFactory和Transformer類



在JAXP中所提供的標準的更新原始XML文檔的方法就是調用XSLT引擎,亦即使用TransformerFactory和Transformer類。請看下面的Java代碼片斷:





//首先建立一個DOMSource對象,該建構函式的參數可以是一個Document對象

//doc代表更改後的DOM Tree。

DOMSource doms = new DOMSource (doc);



//建立一個File對象,代表DOM Tree所包含的資料的輸出介質,這是一個XML檔案。

File f = new File ("XMLOutput.xml");



//建立一個StreamResult對象,該建構函式的參數可以取為File對象。

StreamResult sr = new StreamResult (f);



//下面調用JAXP中的XSLT引擎來實現輸出DOM Tree中的資料到XML檔案中的功能。

//XSLT引擎的輸入為DOMSource對象,輸出為StreamResut對象。

try

{

//首先建立一個TransformerFactory對象,再由此建立Transformer對象。Transformer

//類相當於一個XSLT引擎。通常我們使用它來處理XSL檔案,但是在這裡我們使

//用它來輸出XML文檔。

TransformerFactory tf=TransformerFactory.newInstance();

Transformer t=tf.newTransformer ();



//關鍵的一步, 調用Transformer對象 (XSLT引擎)的transform()方法,該方法的第一

//個參數是DOMSource對象,第二個參數是StreamResult對象。

t.transform(doms,sr);

}

catch (TransformerConfigurationException tce)

{

System.out.println("Transformer Configuration Exception\n-----");

tce.printStackTrace();

}

catch (TransformerException te)

{

System.out.println ("Transformer Exception\n---------");

te.printStackTrace ();

}





在實際的應用中,我們可以應用傳統的DOM API從XML文檔中擷取DOM Tree,然後根據實際的需求對DOM Tree執行各種操作,得到最終的Document對象,接下來可以由此Document對象建立DOMSource對象,剩下的事情就是照搬上面的代碼了,程式運行完畢後, XMLOutput.xml就是你所需要的結果(當然了,你可以隨意更改StreamResult類建構函式的參數,指定不同的輸出介質,而不必是千篇一律的XML文檔)。



這個方法最大的好處在於可以隨心所欲的控制DOM Tree中的內容輸出到輸出介質中的格式,但是光靠TransformerFactory類和Transformer類並不能實現這個功能,還需要依賴OutputKeys類的協助。 完整的例子請參考下列檔案: AddRecord2.java(見附件)、user.xml(見附件)。該例子的運行環境為:Windows XP Professional、JDK 1.3.1。為了能夠正常編譯運行AddRecord2.java這個程式,你需要到網址http://java.sun.com去下載安裝JAXP 1.1或者Java XML Pack(Java XML Pack已經內含JAXP了)。



OutputKeys類



javax.xml.transform.OutputKeys類和java.util.Properties類配合使用,可以控制JAXP的XSLT引擎(Transformer類)輸出XML文檔的格式。請看下面的代碼片斷:





//首先建立一個TransformerFactory對象,再由此建立Transformer對象。

TransformerFactory tf=TransformerFactory.newInstance();

Transformer t=tf.newTransformer ();



//擷取Transformser對象的輸出屬性,亦即XSLT引擎的預設輸出屬性,這是一個

//java.util.Properties對象。

Properties properties = t.getOutputProperties();



//設定新的輸出屬性:輸出字元編碼為GB2312,這樣可以支援中文字元,XSLT引擎所輸出

//的XML文檔如果包含了中文字元,可以正常顯示,不會出現所謂的"漢字問題\\"。

//請留意OutputKeys類的字串常數OutputKeys.ENCODING。

properties.setProperty(OutputKeys.ENCODING,"GB2312");



/更新XSLT引擎的輸出屬性。

t.setOutputProperties(properties);



//調用XSLT引擎,按照輸出屬性中的設定,輸出DOM Tree中的內容到輸出介質中。

t.transform(DOMSource_Object,StreamResult_Object);









從上面的程式碼,我們不難看出,通過設定XSLT引擎(Transformer類)的輸出屬性,可以控制DOM Tree中的內容的輸出格式,這對於我們定製輸出內容是很有協助的。那麼JAXP的XSLT引擎(Transformer類)有那些輸出屬性可以設定呢? javax.xml.transform.OutputKeys類定義了很多字串常數,它們都是可以自由設定的輸出屬性,常用的輸出屬性如下所示:



public static final java.lang.String METHOD





可以設為"xml"、"html"、"text"等值。



public static final java.lang.String VERSION





所遵循規範的版本號碼,如果METHOD設為"xml",那麼它的值應該設為"1.0",如果METHOD設為"html",那麼它的值應該設為"4.0",如果METHOD設為"text",那麼這個輸出屬性會被忽略。



public static final java.lang.String ENCODING





設定輸出時所採用的編碼方式,比如\\"GB2312"、"UTF-8"等等,如果將其設定為"GB2312",可以解決所謂的"漢字問題\\"。



public static final java.lang.String OMIT_XML_DECLARATION



設定輸出到XML文檔中時是否忽略XML聲明,亦即類似於:



<?xml version="1.0" standalone="yes" encoding="utf-8" ?>





這樣的代碼。它可選的值有"yes"、"no"。



public static final java.lang.String INDENT





IDENT設定XSLT引擎在輸出XML文檔時,是否自動添加額外的空格,它可選的值為"yes"、"no"。



public static final java.lang.String MEDIA_TYPE



MEDIA_TYPE設定輸出文檔的MIME類型。



如果設定XSLT引擎的輸出屬性呢?下面我們來總結一下:



首先是擷取XSLT引擎(Transformer類)的預設輸出屬性的集合,這需要使用Transformer類的getOutputProperties()方法,傳回值是一個java.util.Properties對象。



Properties properties = transformer.getOutputProperties();





然後是設定新的輸出屬性,比如:



properties.setProperty(OutputKeys.ENCODING,"GB2312");

properties.setProperty(OutputKeys.METHOD,"html");

properties.setProperty(OutputKeys.VERSION,"4.0");

………………………………………………………





最後是更新XSLT引擎(Transformer類)的預設輸出屬性的集合,這需要使用Transformer類的setOutputProperties()方法,參數是一個java.util.Properties對象。



我們編寫了一個新的程式,其中應用了OutputKeys類,用以控制XSLT引擎的輸出屬性,該程式的架構和前一個程式(AddRecord3.java)大致相同,不過輸出結果略有不同。完整的代碼請參考下列檔案: AddRecord3.java(見附件)、user.xml(見附件)。該例子的運行環境為:Windows XP Professional、JDK 1.3.1。為了能夠正常編譯運行AddRecord3.java這個程式,你需要到網址http://java.sun.com去下載安裝JAXP 1.1或者Java XML Pack(Java XML Pack內含JAXP了)。



方法四:使用Xalan XML Serializer



方法四其實是方法三的一個變種,它需要Apache Xalan和Apache Xerces的支援才能夠運行。例子代碼如下所示:





//首先建立一個DOMSource對象,該建構函式的參數可以是一個Document對象

//doc代表更改後的DOM Tree。

DOMSource domSource = new DOMSource (doc);



//建立一個DOMResult對象,臨時儲存XSLT引擎的輸出結果。

DOMResult domResult = new DOMResult();



//下面調用JAXP中的XSLT引擎來實現輸出DOM Tree中的資料到XML檔案中的功能。

//XSLT引擎的輸入為DOMSource對象,輸出為DOMResut對象。

try

{

//首先建立一個TransformerFactory對象,再由此建立Transformer對象。Transformer

//類相當於一個XSLT引擎。通常我們使用它來處理XSL檔案,但是在這裡我們使

//用它來輸出XML文檔。

TransformerFactory tf=TransformerFactory.newInstance();

Transformer t=tf.newTransformer ();



//設定XSLT引擎的屬性(必不可少,否則會產生\\"漢字問題\\")。

Properties properties = t.getOutputProperties();

properties.setProperty(OutputKeys.ENCODING,"GB2312");

t.setOutputProperties(properties);



//關鍵的一步, 調用Transformer對象 (XSLT引擎)的transform()方法,該方法的第一

//個參數是DOMSource對象,第二個參數是DOMResult對象。

t.transform(domSource,domResult);



//建立預設的Xalan XML Serializer,使用它將臨時存放在DOMResult對象

//(domResult)中的內容以輸出資料流的形式輸出到輸出介質中。

Serializer serializer = SerializerFactory.getSerializer

(OutputProperties.getDefaultMethodProperties("xml"));



//設定Xalan XML Serializer的輸出屬性,這一步必不可少,否則也可能產生

//所謂的"漢字問題\\"。

Properties prop=serializer.getOutputFormat();

prop.setProperty("encoding","GB2312");

serializer.setOutputFormat(prop);



//建立一個File對象,代表DOM Tree所包含的資料的輸出介質,這是一個XML檔案。

File f = new File ("xuser3.xml");



//建立檔案輸出資料流對象fos,請留意建構函式的參數。

FileOutputStream fos=new FileOutputStream(f);



//設定Xalan XML Serializer的輸出資料流。

serializer.setOutputStream(fos);



//序列化輸出結果。

serializer.asDOMSerializer().serialize(domResult.getNode());

}

catch (Exception tce)

{

tce.printStackTrace();

}







這個方法不太常用,而且似乎有點畫蛇添足,所以我們就不展開討論了。完整的例子請參考下列檔案: AddRecord4.java(見附件)、user.xml(見附件)。該例子的運行環境為:Windows XP Professional、JDK 1.3.1。為了能夠正常編譯運行AddRecord4.java這個程式,你需要到網址http://xml.apache.org/dist/去下載安裝Apache Xalan和Apache Xerces。



或者是到網址http://java.sun.com/xml/download.html去下載安裝Java XML Pack。因為最新的Java XML Pack(Winter 01 版)包含了Apache Xalan和Apache Xerces技術在內。



結論:



本文簡略的討論了Java語言編程中更新XML文檔的四種方法。第一種方法是直接讀寫XML檔案,這種方法十分繁瑣,而且比較容易出錯,極少使用,除非你需要開發自己的XML Parser,否則不會使用這種方法。第二種方法是使用Apache Crimson的XmlDocument類,這種方法極為簡單,使用方便,如果你選用Apache Crimson作為XML解析器,那麼不妨使用這種方法,不過這種方法似乎效率不高(源於效率低下的Apache Crimson),另外,高版本的JAXP或者是Java XML Pack、JWSDP不直接支援Apache Crimson,亦即這種方法不通用。第三種方法是使用JAXP的XSLT引擎(Transformer類)來輸出XML文檔,這種方法也許是標準的方法了,使用起來十分靈活,特別是可以自如控制輸出格式,我們推薦採用這種方法。第四種方法是第三種方法的變種,採用了Xalan XML Serializer,引入了序列化操作,對於大量文檔的修改/輸出有優越性,可惜的是要重複設定XSLT引擎的屬性和XML Serializer的輸出屬性,比較麻煩,而且依賴於Apache Xalan和Apache Xerces技術,通用性略顯不足。



除了上面討論的四種方法以外,實際上應用別的API(比如JDOM、Castor、XML4J、Oracle XML Parser V2)也有很多辦法可以更新XML文檔,限於篇幅,在這裡就不一一討論了。



參考文獻以及資料來源:



[1]The Java Web Services Tutorial, Sun Microsystems Inc.



[2]http://xml.apache.org,Apache XML Project(Crimson、Xerces、Xalan)



[3]http://www.jguru.com,XML Forum



[4]http://forum.java.sun.com,Java Technology & XML Forum





相關文章

Beyond APAC's No.1 Cloud

19.6% IaaS Market Share in Asia Pacific - Gartner IT Service report, 2018

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。