用Java解析XML文檔,最常用的有兩種方法:使用基於事件的XML簡單API (Simple API for XML)稱為SAX和基於樹和節點的文件物件模型(Document Object Module)稱為DOM。Sun公司提供了Java API for XML Parsing(JAXP)介面來使用SAX和DOM,通過JAXP,我們可以使用任何與JAXP相容的XML解析器。
JAXP介面包含了三個包:
(1)org.w3c.dom W3C推薦的用於XML標準規劃文件物件模型的介面。
(2)org.xml.sax 用於對XML進行文法分析的事件驅動的XML簡單API(SAX)
(3)javax.xml.parsers解析器工廠工具,程式員獲得並配置特殊的特殊文法分析器。
二、使用DOM解析XML文檔
我們現在來看看DOM是如何解析XML的吧!同樣的,我將從一個簡單的不能再簡單的例子來說明DOM是如何解析XML文檔的,先讓我們看看XML是什麼內容吧: Java代碼
- <?xml version="1.0" encoding="gb2312"?>
- <books>
- <book email="123@990.net">
- <name>bookname</name>
- <price>102</price>
- </book>
- </books>
<?xml version="1.0" encoding="gb2312"?><books> <book email="123@990.net"> <name>bookname</name> <price>102</price> </book></books>
解析這個XML檔案的Java代碼
Java代碼
- import java.io.FileInputStream;
- import java.io.FileNotFoundException;
- import java.io.IOException;
- import java.io.InputStream;
- import javax.xml.parsers.DocumentBuilder;
- import javax.xml.parsers.DocumentBuilderFactory;
- import javax.xml.parsers.ParserConfigurationException;
- import org.w3c.dom.Document;
- import org.w3c.dom.Element;
- import org.w3c.dom.Node;
- import org.w3c.dom.NodeList;
- import org.xml.sax.SAXException;
-
- public class DomParse {
- public DomParse()...{
-
- DocumentBuilderFactory domfac=DocumentBuilderFactory.newInstance();
-
- try ...{
- DocumentBuilder dombuilder=domfac.newDocumentBuilder();
- InputStream is=new FileInputStream("WebRoot/WEB-INF/hell.xml");
- Document doc=dombuilder.parse(is);
- Element root=doc.getDocumentElement();
- NodeList books=root.getChildNodes();
-
- if(books!=null)...{
- for(int i=0;i<books.getLength();i++)...{
- Node book=books.item(i);
- if(book.getNodeType()==Node.ELEMENT_NODE)...{
- String email=book.getAttributes().getNamedItem("email").getNodeValue();
- System.out.println(email);
- for(Node node=book.getFirstChild();node!=null;node=node.getNextSibling())...{
- if(node.getNodeType()==Node.ELEMENT_NODE)...{
- if(node.getNodeName().equals("name"))...{
- String name=node.getNodeValue();
- String name1=node.getFirstChild().getNodeValue();
- System.out.println(name);
- System.out.println(name1);
- }
-
- if(node.getNodeName().equals("price"))...{
- String price=node.getFirstChild().getNodeValue();
- System.out.println(price);
- }
- }
- }
- }
- }
- }
- } catch (ParserConfigurationException e) ...{
- e.printStackTrace();
- } catch (FileNotFoundException e) ...{
- e.printStackTrace();
- } catch (SAXException e) ...{
- e.printStackTrace();
- } catch (IOException e) ...{
- e.printStackTrace();
- }
- }
-
- public static void main(String[] args)
- ...{
- new DomParse();
- }
- }
import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import javax.xml.parsers.DocumentBuilder;import javax.xml.parsers.DocumentBuilderFactory;import javax.xml.parsers.ParserConfigurationException;import org.w3c.dom.Document;import org.w3c.dom.Element;import org.w3c.dom.Node;import org.w3c.dom.NodeList;import org.xml.sax.SAXException;public class DomParse { public DomParse()...{ DocumentBuilderFactory domfac=DocumentBuilderFactory.newInstance(); try ...{ DocumentBuilder dombuilder=domfac.newDocumentBuilder(); InputStream is=new FileInputStream("WebRoot/WEB-INF/hell.xml"); Document doc=dombuilder.parse(is); Element root=doc.getDocumentElement(); NodeList books=root.getChildNodes(); if(books!=null)...{ for(int i=0;i<books.getLength();i++)...{ Node book=books.item(i); if(book.getNodeType()==Node.ELEMENT_NODE)...{ String email=book.getAttributes().getNamedItem("email").getNodeValue(); System.out.println(email); for(Node node=book.getFirstChild();node!=null;node=node.getNextSibling())...{ if(node.getNodeType()==Node.ELEMENT_NODE)...{ if(node.getNodeName().equals("name"))...{ String name=node.getNodeValue(); String name1=node.getFirstChild().getNodeValue(); System.out.println(name); System.out.println(name1); } if(node.getNodeName().equals("price"))...{ String price=node.getFirstChild().getNodeValue(); System.out.println(price); } } } } } } } catch (ParserConfigurationException e) ...{ e.printStackTrace(); } catch (FileNotFoundException e) ...{ e.printStackTrace(); } catch (SAXException e) ...{ e.printStackTrace(); } catch (IOException e) ...{ e.printStackTrace(); } } public static void main(String[] args) ...{ new DomParse(); } }
三、代碼解釋
先看看這個程式引用類:
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
//下面主要是org.xml.sax包的類
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;
上面那麼簡單的代碼一看就明白了,但是為了介紹個DOM編程的大概還是來看看這個程式吧:
(1)得到DOM解析器的工廠執行個體
DocumentBuilderFactory domfac=DocumentBuilderFactory.newInstance();
得到javax.xml.parsers.DocumentBuilderFactory;類的執行個體就是我們要的解析器工廠
(2)從DOM工廠獲得DOM解析器
DocumentBuilder dombuilder=domfac.newDocumentBuilder();
通過javax.xml.parsers.DocumentBuilderFactory執行個體的靜態方法newDocumentBuilder()得到DOM解析器
(3)把要解析的XML文檔轉化為輸入資料流,以便DOM解析器解析它
InputStream is=new FileInputStream("bin/library.xml");
InputStream是一個介面。
(4)解析XML文檔的輸入資料流,得到一個Document
Document doc=dombuilder.parse(is);
由XML文檔的輸入資料流得到一個org.w3c.dom.Document對象,以後的處理都是對Document對象進行的
(5)得到XML文檔的根節點
Element root=doc.getDocumentElement();
在DOM中只有根節點是一個org.w3c.dom.Element對象。
(6)得到節點的子節點
NodeList books=root.getChildNodes();
for(int i=0;i<books.getLength();i++){
Node book=books.item(i);}
這是用一個org.w3c.dom.NodeList介面來存放它所有子節點的,還有一種輪循子節點的方法,後面有介紹
(7)取得節點的屬性值
String email=book.getAttributes().getNamedItem("email").getNodeValue();
System.out.println(email);
注意,節點的屬性也是它的子節點。它的節點類型也是Node.ELEMENT_NODE
(8)輪循子節點
for(Node node=book.getFirstChild();node!=null;node=node.getNextSibling()){
if(node.getNodeType()==Node.ELEMENT_NODE){
if(node.getNodeName().equals("name")){
String name=node.getNodeValue();
String name1=node.getFirstChild().getNodeValue();
System.out.println(name);
System.out.println(name1);
}
if(node.getNodeName().equals("price")){
String price=node.getFirstChild().getNodeValue();
System.out.println(price);
}}
這段代碼的列印輸出為:
123@990.net
null
bookname
102
從上面可以看出
String name=node.getNodeValue(); 是一個空值。而
String name1=node.getFirstChild().getNodeValue(); 才是真正的值,這是因為DOM把<name> rjzjh</name>也當作是兩層結構的節點,其父節點為<name>節點本身,且它只有一個子節點(如果有屬性的話就不止一個了!),子節點是它的值“rjzjh”,所以我們看到上面的結果。
還有,子節點的節點類型也是Node.ELEMENT_NODE型的,node.getNextSibling()方法是取下一個相鄰的節點。
四、DOM結點
DOM是一些節點的集合,由於文檔中可能包含有不同類型的資訊,所以定義了幾種不同類型的節點。DOM中最常見的節點類型有:
(1)元素:
元素是XML的基本構件。元素的子節點可以是其它元素、文本節點或兩者都有。元素節點還可以只含有屬性這一唯一類型的節點。
(2)屬性:屬性節點包含關於元素節點的資訊,但它不是元素的子節點
(3)文本:文本節點文本資訊,或乾脆是空白的文本。
(4)文檔:文檔節點是整個文檔中所有其它節點的父節點
元素是一種很重要的類型節點,元素節點可以是其他節點的容器。