複製代碼 代碼如下:<?php
$g_books = array();
$g_elem = null;
function startElement( $parser, $name, $attrs )
{
global $g_books, $g_elem;
if ( $name == 'BOOK' ) $g_books []= array();
$g_elem = $name;
}
function endElement( $parser, $name )
{
global $g_elem;
$g_elem = null;
}
function textData( $parser, $text )
{
global $g_books, $g_elem;
if ( $g_elem == 'AUTHOR' ||
$g_elem == 'PUBLISHER' ||
$g_elem == 'TITLE' )
{
$g_books[ count( $g_books ) - 1 ][ $g_elem ] = $text;
}
}
$parser = xml_parser_create();
xml_set_element_handler( $parser, "startElement", "endElement" );
xml_set_character_data_handler( $parser, "textData" );
$f = fopen( 'books.xml', 'r' );
while( $data = fread( $f, 4096 ) )
{
xml_parse( $parser, $data );
}
xml_parser_free( $parser );
foreach( $g_books as $book )
{
echo $book['TITLE']." - ".$book['AUTHOR']." - ";
echo $book['PUBLISHER']."\n";
}
?>
PHP中用SAX方式解析XML發現的問題
XML如下:
so.xml 複製代碼 代碼如下:<?xml version="1.0" encoding="GBK"?>
<result>
<row>
<id>1047869</id>
<date>2008-08-28 14:54:51</date>
<title>紅花還需綠葉扶--淺談腳架雲台的選購</title>
<summary>很多專業攝影師在選購三腳架的時候,往往出手闊綽,3、4000元一個的捷信或者曼富圖三腳架常常不用經過思考就買下來了,可是,他們卻總是忽視了雲台的精挑細眩其實,數位相機架在三腳架上面究竟穩不穩,起決定作用的是雲台,那麼我們如何才能挑選到一款穩如磐石的雲台呢?雲台家族種類繁多用途迥異簡單的說,腳架雲台是用於串連相機與腳架進行角度調節的組件,主要分成三維雲台和球型雲台。三維雲台在橫向旋轉</summary>
</row>
...(省略若干行)
</result>
xml_class.php 複製代碼 代碼如下:<?php
class xml {
var $parser;
var $i =0;
var $search_result = array();
var $row = array();
var $data = array();
var $now_tag;
var $tags = array("ID", "CLASSID", "SUBCLASSID", "CLASSNAME", "TITLE", "SHORTTITLE", "AUTHOR", "PRODUCER", "SUMMARY", "CONTENT", "DATE");
function xml()
{
$this->parser = xml_parser_create();
xml_set_object($this->parser, $this);
xml_set_element_handler($this->parser, "tag_open", "tag_close");
xml_set_character_data_handler($this->parser, "cdata");
}
function parse($data)
{
xml_parse($this->parser, $data);
}
function tag_open($parser, $tag, $attributes)
{
$this->now_tag=$tag;
if($tag=='RESULT') {
$this->search_result = $attributes;
}
if($tag=='ROW') {
$this->row[$this->i] = $attributes;
}
}
function cdata($parser, $cdata)
{
if(in_array($this->now_tag, $this->tags)){
$tagname = strtolower($this->now_tag);
$this->data[$this->i][$tagname] = $cdata;
}
}
function tag_close($parser, $tag)
{
$this->now_tag="";
if($tag=='ROW') {
$this->i++;
}
}
}
?>
search.php 複製代碼 代碼如下:<?php
require_once("./xml_class.php");
$xml = file_get_contents("./so.xml");
$xml_parser = new xml();
$xml_parser->parse($xml);
print_r($xml_parser);
?>
最後得到的結果中summary中的資料少了很多,總是得不到完整的summary內容。有時還會得到亂碼,在網上也找了半天也不知道是什麼問題引起的。
後來才發現問題是因為xml_parser解析XML是迴圈處理節點中的資料的,每次只取大概300個字元長度(具體是多少,我也不太清楚,只是用strlen輸出大概在300左右),於是才知道是因為每次的迴圈就會把前次的資料給複蓋了,這樣就會出現資料不全的問題。
解決辦法就是把xml_class檔案中的xml類中的cdata方法中$this->data[$this->i][$tagname] = $cdata;改為$this->data[$this->i][$tagname] .= $cdata;即可解決(其中有一些NOTICE錯誤,PHP已忽略了).