PHP的XML分析函數

來源:互聯網
上載者:User
xml|函數 首先我得承認我喜歡電腦標準。如果每個人都遵從這個行業的標準,互連網將會是一個更好的媒體。使用標準化的資料交換格式才能使開放的和獨立於平台的計算模式切實可行。這就是我作為XML愛好者的原因。

幸運的是,我最喜愛的指令碼語言不但支援XML而且對其支援正不斷加強。PHP可以讓我迅速將XML文檔發布到互連網上,收集XML文檔的統計資訊,將XML文檔轉換成其它格式。例如,我時常用PHP的XML處理能力來管理我用XML所寫的文章和書。

本文中,我將討論任何用PHP內建的Expat解析器來處理XML文檔。通過範例,我將示範Expat的處理方法。同時,範例可以告訴你如何:

建立你自己的處理函數
將XML文檔轉換成你自己的PHP資料結構

介紹Expat

XML的解析器,同樣稱為XML處理器,可以使程式訪問XML文檔的結構和內容。Expat是PHP指令碼語言的XML解析器。它同時也運用在其它項目中,例如Mozilla、Apache和Perl。

什麼是基於事件的解析器?

XML解析器的兩種基本類型:

基於樹型的解析器:將XML文檔轉換成樹型結構。這類解析器分析整篇文章,同時提供一個API來訪問所產生樹的每個元素。其通用的標準為DOM(文檔對象模式)。
基於事件的解析器:將XML文檔視為一系列的事件。當一個特殊事件發生時,解析器將調用開發人員提供的函數來處理。
基於事件的解析器有一個XML文檔的資料集中視圖,也就是說它集中在XML文檔的資料部分,而不是其結構。這些解析器從頭到尾處理文檔,並將類似於-元素的開始、元素的結尾、特徵資料的開始等等-事件通過回調(callback)函數報告給應用程式。以下是一個"Hello-World"的XML文檔範例:

<greeting>
Hello World
</greeting>

基於事件的解析器將報告為三個事件:

開始元素:greeting
CDATA項的開始,值為:Hello World
結束元素:greeting
不像基於樹型的解析器,基於事件的解析器不產生描述文檔的結構。在CDATA項中,基於事件的解析器不會讓你得到父元素greeting的資訊。
然而,它提供一個更底層的訪問,這就使得可以更好地利用資源和更快地訪問。通過這種方式,就沒有必要將整個文檔放入記憶體;而事實上,整個文檔甚至可以大於實際記憶體值。


Expat就是這樣的一種基於事件的解析器。當然如果使用Expat,必要時它一樣可以在PHP中產生完全的原生樹結構。


上面Hello-World的範例包括完整的XML格式。但它是無效的,因為既沒有DTD(文件類型定義)與其聯絡,也沒有內嵌DTD。


對於Expat,這並沒有區別:Expat是一個不檢查有效性的解析器,因此忽略任何與文檔聯絡的DTD。但應注意的是文檔仍然需要完整的格式,否則Expat(和其他符合XML標準的解析器一樣)將會隨著出錯資訊而停止。


作為不檢查有效性的解析器,Exapt的快速性和輕巧性使其十分適合互連網程式。


編譯Expat

Expat可以編譯進PHP3.0.6版本(或以上)中。從Apache1.3.9開始,Expat已經作為Apache的一部分。在Unix系統中,通過-with-xml選項配置PHP,你可以將其編譯入PHP。


如果你將PHP編譯為Apache的模組,而Expat將預設作為Apache的一部分。在Windows中,你則必須要載入XML動態串連庫。

XML範例:XMLstats

瞭解Expat的函數的一個辦法就是通過範例。我們所要討論的範例是使用Expat來收集XML文檔的統計資料。


對於文檔中每個元素,以下資訊都將被輸出:

該元素在文檔中使用的次數
該元素中字元資料的數量
元素的父元素
元素的子項目
注意:為了示範,我們利用PHP來產生一個結構來儲存元素的父元素和子項目

準備

用於產生XML解析器執行個體的函數為xml_parser_create()。該執行個體將用於以後的所有函數。這個思路非常類似於PHP中MySQL函數的串連標記。在解析文檔前,基於事件的解析器通常要求你註冊回呼函數-用於特定的事件發生時調用。Expat沒有例外事件,它定義了如下七個可能事件:


對象 XML解析函數 描述

元素 xml_set_element_handler() 元素的開始和結束

字元資料 xml_set_character_data_handler() 字元資料的開始

外部實體 xml_set_external_entity_ref_handler() 外部實體出現

未解析外部實體 xml_set_unparsed_entity_decl_handler() 未解析的外部實體出現

處理指示 xml_set_processing_instruction_handler() 處理指示的出現

記法聲明 xml_set_notation_decl_handler() 記法聲明的出現

預設 xml_set_default_handler() 其它沒有指定處理函數的事件

所有的回呼函數必須將解析器的執行個體作為其第一個參數(此外還有其它參數)。


對於本文最後的範例指令碼。你需要注意的是它既用到了元素處理函數又用到了字元資料處理函數。元素的回調處理函數通過xml_set_element_handler()來註冊。


這個函數需要三個參數:

解析器的執行個體
處理開始元素的回呼函數的名稱
處理結束元素的回呼函數的名稱
當開始解析XML文檔時,回呼函數必須存在。它們必須定義為與PHP手冊中所描述的原型一致。


例如,Expat將三個參數傳遞給開始元素的處理函數。在指令碼範例中,其定義如下:


function start_element($parser, $name, $attrs)


第一個參數是解析器標示,第二個參數是開始元素的名稱,第三參數為包含元素所有屬性和值的數組。


一旦你開始解析XML文檔,Expat在遇到開始元素是都將調用你的start_element()函數並將參數傳遞過去。


XML的Case Folding選項

用xml_parser_set_option()函數將Case folding選項關閉。這個選項預設是開啟的,使得傳遞給處理函數的元素名自動轉換為大寫。但XML對大小寫是敏感的(所以大小寫對統計XML文檔是非常重要的)。對於我們的範例,case folding選項必須關閉。


解析文檔

在完成所有的準備工作後,現在指令碼終於可以解析XML文檔:

Xml_parse_from_file(),一個自訂的函數,開啟參數中指定的檔案,並以4kb的大小進行解析
xml_parse()和xml_parse_from_file()一樣,當發生錯誤時,即XML文檔的格式不完全時,將會返回false。
你可以使用xml_get_error_code()函數來得到最後一個錯誤的數字代碼。將此數字代碼傳遞給xml_error_string()函數即可得到錯誤的文本資訊。
輸出XML當前的行數,使得調試更容易。
在解析的過程中,調用回呼函數。
描述文檔結構

當解析文檔時,對於Expat需要強調問題的是:如何保持文檔結構的基本描述?


如前所述,基於事件的解析器本身並不產生任何結構資訊。


不過標籤(tag)結構是XML的重要特性。例如,元素序列<book><title>表示的意思不同於<figure><title>。也就是說,任何作者都會告訴你書名和圖名是沒有關係的,雖然它們都用到"title"這個術語。因此,為了更有效地使用基於事件的解析器處理XML,你必須使用自己的棧(stacks)或列表(lists)來維護文檔的結構資訊。


為了產生文檔結構的鏡像,指令碼至少需要知道目前元素的父元素。用Exapt的API是無法實現的,它只報告目前元素的事件,而沒有任何前後關係的資訊。因此,你需要建立自己的棧結構。


指令碼範例使用先進後出(FILO)的棧結構。通過一個數組,棧將儲存全部的開始元素。對於開始元素處理函數,目前的元素將被array_push()函數推到棧的頂部。相應的,結束元素處理函數通過array_pop()將最頂的元素移走。


對於序列<book><title></title></book>,棧的填充如下:

開始元素book:將"book"賦給棧的第一個元素($stack[0])。
開始元素title:將"title"賦給棧的頂部($stack[1])。
結束元素title:從棧中將最頂部的元素移去($stack[1])。
結束元素title:從棧中將最頂部的元素移去($stack[0])。
PHP3.0通過一個$depth變數手動控制元素的嵌套來實現範例。這就使指令碼看起來比較複雜。PHP4.0通過array_pop()和array_push()兩個函數來使指令碼看起來更簡潔。


收集資料

為了收集每個元素的資訊,指令碼需要記住每個元素的事件。通過使用一個全域的陣列變數$elements來儲存文檔中所有不同的元素。數組的項目是元素類的執行個體,有4個屬性(類的變數)

$count -該元素在文檔中被發現的次數
$chars -元素中字元事件的位元組數
$parents -父元素
$childs - 子項目
正如你所看到的,將類執行個體儲存在數組中是輕而易舉。


注意:PHP的一個特性是你可以通過while(list() = each())loop遍曆整個類結構,如同你遍曆整個相應的數組一樣。所有的類變數(當你用PHP3.0時還有方法名)都以字串的方式輸出。


當發現一個元素時,我們需要增加其相應的記數器來跟蹤它在文檔中出現多少次。在相應的$elements項中的記數元素也要加一。


我們同樣要讓父元素知道目前的元素是它的子項目。因此,目前元素的名稱將會加入到父元素的$childs數組的項目中。最後,目前元素應該記住誰是它的父元素。所以,父元素被加入到目前元素$parents數組的項目中。


顯示統計資訊

剩下的代碼在$elements數組和其子數組中迴圈顯示其統計結果。這就是最簡單的嵌套迴圈,儘管輸出正確的結果,但代碼既不簡潔又沒有任何特別的技巧,它僅僅是一個你可能每天用他來完成工作的迴圈。


指令碼範例被設計為通過PHP的CGI方式的命令列來調用。因此,統計結果輸出的格式為文字格式設定。如果你要將指令碼運用到互連網上,那麼你需要修改輸出函數來產生HTML格式。

總結

Exapt是PHP的XML解析器。作為基於事件的解析器,它不產生文檔的結構描述。但通過提供底層訪問,這就使得可以更好地利用資源和更快地訪問。


作為一個不檢查有效性的解析器,Expat忽略與XML文檔串連的DTD,但如果文檔的格式不完整,它將會隨著出錯資訊而停止。


提供事件處理函數來處理文檔
建立自己的事件結構例如棧和樹來獲得XML結構資訊標記的優點。
每天都有新的XML程式出現,而PHP對XML的支援也不斷加強(例如,增加了支援基於DOM的XML解析器LibXML)。


有了PHP和Expat,你就可以為即將出現的有效、開放和獨立於平台的標準作準備。

範例

<?
/*****************************************************************************
* 名稱:XML解析範例:XML文檔資訊統計
* 描述
* 本範例通過PHP的Expat解析器收集和統計XML文檔的資訊(例如:每個元素出現的次數、父元素和子項目
* XML檔案作為一個參數 ./xmlstats_PHP4.php3 test.xml
* $Requires: Expat 要求:Expat PHP4.0編譯為CGI模式
*****************************************************************************/

// 第一個參數是XML檔案
$file = $argv[1];

// 變數的初始化
$elements = $stack = array();
$total_elements = $total_chars = 0;

// 元素的基本類
class element
{
var $count = 0;
var $chars = 0;
var $parents = array();
var $childs = array();
}

// 解析XML檔案的函數
function xml_parse_from_file($parser, $file)
{
if(!file_exists($file))
{
die("Can't find file "$file".");
}

if(!($fp = @fopen($file, "r")))
{
die("Can't open file "$file".");
}

while($data = fread($fp, 4096))
{
if(!xml_parse($parser, $data, feof($fp)))
{
return(false);
}
}

fclose($fp);

return(true);
}

// 輸出結果函數(方框形式)
function print_box($title, $value)
{
printf("n+%'-60s+n", "");
printf("|%20s", "$title:");
printf("%14s", $value);
printf("%26s|n", "");
printf("+%'-60s+n", "");
}

// 輸出結果函數(行形式)
function print_line($title, $value)
{
printf("%20s", "$title:");
printf("%15sn", $value);
}

// 排序函數
function my_sort($a, $b)
{
return(is_object($a) && is_object($b) ? $b->count - $a->count: 0);
}

function start_element($parser, $name, $attrs)
{
global $elements, $stack;

// 元素是否已在全域$elements數組中?
if(!isset($elements[$name]))
{
// 否-增加一個元素的類執行個體
$element = new element;
$elements[$name] = $element;
}

// 該元素的記數器加一
$elements[$name]->count++;

// 是否有父元素?
if(isset($stack[count($stack)-1]))
{
// 是-將父元素賦給$last_element
$last_element = $stack[count($stack)-1];

// 如果目前元素的父元素數組為空白,初始化為0
if(!isset($elements[$name]->parents[$last_element]))
{
$elements[$name]->parents[$last_element] = 0;
}

// 該元素的父元素記數器加一
$elements[$name]->parents[$last_element]++;

// 如果目前元素的父元素的子項目數組為空白,初始化為0

if(!isset($elements[$last_element]->childs[$name]))
{
$elements[$last_element]->childs[$name] = 0;
}

// 該元素的父元素的子項目記數器加一
$elements[$last_element]->childs[$name]++;
}

// 將目前的元素加入到棧中
array_push($stack, $name);
}

function stop_element($parser, $name)
{
global $stack;

// 從棧中將最頂部的元素移去
array_pop($stack);
}

function char_data($parser, $data)
{
global $elements, $stack, $depth;

// 增加目前元素的字元數目
$elements[$stack][count($stack)-1]]->chars += strlen(trim($data));
}

// 產生解析器的執行個體
$parser = xml_parser_create();

// 設定處理函數
xml_set_element_handler($parser, "start_element", "stop_element");
xml_set_character_data_handler($parser, "char_data");
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);

// 解析檔案
$ret = xml_parse_from_file($parser, $file);
if(!$ret)
{
die(sprintf("XML error: %s at line %d",
xml_error_string(xml_get_error_code($parser)),
xml_get_current_line_number($parser)));
}

// 釋放解析器
xml_parser_free($parser);

// 釋放協助元素
unset($elements["current_element"]);
unset($elements["last_element"]);

// 根據元素的次數排序
uasort($elements, "my_sort");

// 在$elements中迴圈收集元素資訊
while(list($name, $element) = each($elements))
{
print_box("Element name", $name);

print_line("Element count", $element->count);
print_line("Character count", $element->chars);

printf("n%20sn", "* Parent elements");

// 在該元素的父中迴圈,輸出結果
while(list($key, $value) = each($element->parents))
{
print_line($key, $value);
}
if(count($element->parents) == 0)
{
printf("%35sn", "[root element]");
}

// 在該元素的子中迴圈,輸出結果
printf("n%20sn", "* Child elements");
while(list($key, $value) = each($element->childs))
{
print_line($key, $value);
}
if(count($element->childs) == 0)
{
printf("%35sn", "[no childs]");
}

$total_elements += $element->count;
$total_chars += $element->chars;
}

// 最終結果
print_box("Total elements", $total_elements);
print_box("Total characters", $total_chars);
?>



相關文章

Beyond APAC's No.1 Cloud

19.6% IaaS Market Share in Asia Pacific - Gartner IT Service report, 2018

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。