PHP中的XML應用(二)

來源:互聯網
上載者:User
xml 如何對文檔進行解析?
  在完成所有的準備工作後,現在指令碼終於可以解析XML文檔:

Xml_parse_from_file(),一個自訂的函數,開啟參數中指定的檔案,並以4kb的大小進行解析
xml_parse(),和xml_parse_from_file()一樣,當發生錯誤時,即XML文檔的格式不完全時,將會返回false。

  我們可以使用xml_get_error_code()函數來得到最後一個錯誤的數字代碼。將此數字代碼傳遞給xml_error_string()函數即可得到錯誤的文本資訊。輸出XML當前的行數,使得調試更容易。

  當解析文檔時,對於Expat需要強調問題的是:如何保持文檔結構的基本描述?

  如前所述,基於事件的解析器本身並不產生任何結構資訊。不過標籤(tag)結構是XML的重要特性。例如,元素序列<book><title>表示的意思不同於<figure><title>。書名和圖名是沒有關係的,雖然它們都用到"title"這個術語。因此,為了更有效地使用基於事件的解析器處理XML,必須使用自己的棧(stacks)或列表(lists)來維護文檔的結構資訊。

  為了產生文檔結構的鏡像,指令碼至少需要知道目前元素的父元素。用Exapt的API是無法實現的,它只報告目前元素的事件,而沒有任何前後關係的資訊。因此,需要建立自己的棧結構。

  指令碼範例使用先進後出(FILO)的棧結構。通過一個數組,棧將儲存全部的開始元素。對於開始元素處理函數,目前的元素將被array_push()函數推到棧的頂部。相應的,結束元素處理函數通過array_pop()將最頂的元素移走。

  對於序列<book><title></title></book>,棧的填充如下:

開始元素book:將"book"賦給棧的第一個元素($stack[0])。
開始元素title:將"title"賦給棧的頂部($stack[1])。
結束元素title:從棧中將最頂部的元素移去($stack[1])。
結束元素title:從棧中將最頂部的元素移去($stack[0])。

  PHP3.0通過一個$depth變數手動控制元素的嵌套來實現範例,這就使指令碼看起來比較複雜。PHP4.0通過array_pop()和array_push()兩個函數來使指令碼看起來更簡潔。

如何收集XML文檔中的元素資訊?

  為了收集每個元素的資訊,指令碼需要記住每個元素的事件。通過使用一個全域的陣列變數$elements來儲存文檔中所有不同的元素。數組的項目是元素類的執行個體,有4個屬性(類的變數)

$count -該元素在文檔中被發現的次數
$chars -元素中字元事件的位元組數
$parents -父元素
$childs - 子項目

  注意:PHP的一個特性是你可以通過while(list() = each())loop遍曆整個類結構,如同你遍曆整個相應的數組一樣。所有的類變數(當你用PHP3.0時還有方法名)都以字串的方式輸出。

  當發現一個元素時,我們需要增加其相應的記數器來跟蹤它在文檔中出現多少次。在相應的$elements項中的記數元素也要加一。

  我們同樣要讓父元素知道目前的元素是它的子項目。因此,目前元素的名稱將會加入到父元素的$childs數組的項目中。最後,目前元素應該記住誰是它的父元素。所以,父元素被加入到目前元素$parents數組的項目中。

顯示統計資訊
  剩下的代碼在$elements數組和其子數組中迴圈顯示其統計結果。這就是最簡單的嵌套迴圈,儘管輸出正確的結果,但代碼既不簡潔又沒有任何特別的技巧,它僅僅是一個你可能每天用他來完成工作的迴圈。

  指令碼範例被設計為通過PHP的CGI方式的命令列來調用。因此,統計結果輸出的格式為文字格式設定。如果你要將指令碼運用到互連網上,那麼你需要修改輸出函數來產生HTML格式。

如何用PHP&XML編製一個迷你搜尋引擎執行個體?
  讓我們首先來熟悉一下我們程式中用到的那個XML(儲存為xyz.xml)。

<?xml version="1.0" encoding="gb2312" ?>
<links>採用PHP和XML技術構建的搜尋引擎
<web memo="memo1" url="">name1</web>
<sub>電腦網路
<web memo="nemo2">name2</web>
<sub>程式設計
<web memo="memo3">name3</web>
<sub>PHP
<web url="http://www.phpbuilder.com/" memo="[英文]PHP開發資源。">
www.phpbuilder.com</web>
<web url="http://www.fokus.gmd.de" memo="[英文]PHP開發手冊。 ">
PHP Manual</web>
</sub>
</sub>
</sub>
</links>

它的結構相當簡單,根項目就是links,sub代表著一個類別,web就是一個網站的資訊,其中包含著屬性,url代表網站的聯結,memo為備忘資訊,<web>??</web> 、<sub>??</sub>中包含的為元素的資料在這裡就是類別和網站的名稱,這是符合上面的規定的。

現在我們來回答上面提出的問題:為什麼要用XML來編製搜尋引擎?
第一個原因就是有時候由於各種原因我們可能不能用到資料庫(MySQL或者其他);
其次,對於小資料量的搜尋引擎來說,它的資料量很小,如果用資料庫來做,效率未必有多高;

最重要的一點是,這個搜尋引擎維護起來相當的簡單,並且不用編寫繁瑣的資料庫的維護的程式。例如,我們要添加一個類別或者網頁,只要編輯文本的檔案,加上一福紈eb>???</web>或是<sub>????</sub>就可以了,而且,如果想把一個類別移動到另一個地方的話,我們只要將這一部分的sub複製過去就行了。

下面一個最簡單的用PHP顯示XML的範例。

下面的程式是將解析XML並按照樹形結構輸出至瀏覽器,並顯示每層的元素總數。

<?php
$file = "demo.xml";// XML檔案
function xml_parse_from_file($parser, $file) {// 解析XML檔案的函數 }
function start_element($parser, $name, $attrs) {//遇到了開元素標記如<a href="link">就執行這一段}
function stop_element($parser, $name) {//遇到了開元素標記如</body>就執行這一段}
function data($parser, $data) {……}
function showcount(){ //顯示每一層的元素總數}

global $level,$levelcount,$maxlevel;
$level = -1;
$parser = xml_parser_create();// 產生解析器的執行個體
xml_set_element_handler($parser, "start_element", "stop_element"); // 設定處理函數
xml_set_character_data_handler($parser, "data");
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);
$ret = xml_parse_from_file($parser, $file); // 解析檔案
if(!$ret) {
die(sprintf("XML error: %s at line %d", xml_error_string(xml_get_error_code($parser)), xml_get_current_line_number($parser)));
}
xml_parser_free($parser); // 釋放解析器
showcount();
?>

在上面的程式的基礎上,可以顯示一段子樹,我們依照元素的層數和他在該層的第幾號來對他進行定位

例如:

links (0,1)
+----web (1,1)
+----sub (1,2)
| +----web (2,1)
| +----sub (2,2)
| | +----web (3,1)
| | +----sub (3,2)
:
:
:
下面的代碼是我們的搜尋引擎的基礎。因為,要顯示出一個子類別(如程式設計->PHP->)的資訊就要用到他。

<?php
……
function start_element($parser, $name, $attrs) {
global $level,$levelcount,$maxlevel,$hide,$lev,$num,$PHP_SELF;
$level += 1;
if($level>$maxlevel)
$maxlevel=$level;
$levelcount[$level]+=1;

if($hide){ //判斷是否在子樹的範圍內,$hide==FALSE 為在
if($level==$lev&&$levelcount[$level]==$num)
$hide=FALSE;
}else{
if($level<=$lev)$hide=TRUE;
}

if(!$hide){
……//輸出
}
}
function data($parser, $data) {
global $level,$hide;
if(!$hide){
if(trim($data)!=""){ echo trim($data); }
}
}
……
global $hide,$lev,$num,$PHP_SELF;
$level = -1;
$hide = TRUE;
echo "<p><a href=$PHP_SELF>Root</a></p>";
if($lev==""){
$lev=0;$num=1;
}
……
?>

mini的搜尋引擎到底如何做呢?

作了若干的鋪墊,下面我們就來看一下我們的搜尋引擎的主要檔案。

第一段為仿sina,yahoo的按照類別查詢
第二段為搜尋查詢部分(把整個樹遍曆一遍)顯示符合的內容。

xml3.php

關鍵字匹配採用eregi函數,我們假設輸入的文字都是不會導致錯誤的。

<全文完>


相關文章

Beyond APAC's No.1 Cloud

19.6% IaaS Market Share in Asia Pacific - Gartner IT Service report, 2018

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。