Python中利用xpath解析HTML

來源:互聯網
上載者:User

標籤:

在進行網頁抓取的時候,分析定位html節點是擷取抓取資訊的關鍵,目前我用的是lxml模組(用來分析XML文檔結構的,當然也能分析html結構), 利用其lxml.html的xpath對html進行分析,擷取抓取資訊:首先,我們需要安裝一個支援xpath的python庫。目前在libxml2的網站上被推薦的python binding是lxml,也有beautifulsoup,不嫌麻煩的話還可以自己用Regex去構建,本文以lxml為例講解。假設有如下的HTML文檔
 1 <html> 2   <body> 3     <form> 4       <div id=‘leftmenu‘> 5         <h3>text</h3> 6         <ul id=’china’><!-- first location --> 7           <li>...</li> 8           <li>...</li> 9              ......10         </ul>11         <ul id=’england’><!-- second location-->12           <li>...</li>13           <li>...</li>14              ......15         </ul>16       </div>17     </form>18   </body>19 </html>        

直接使用lxml處理:

1 import codecs2 from lxml import etree3 f=codecs.open("ceshi.html","r","utf-8")4 content=f.read()5 f.close()6 tree=etree.HTML(content)

etree提供了HTML這個解析函數,現在我們可以直接對HTML使用xpath了,是不是有點小激動,現在就嘗試下吧。

 

在使用xpath之前我們先來看看作為對照的jQuery和RE。

jQuery裡要處理這種東西就很簡單,特別是假如那個ul節點有id的話(比如是<ul id=’china’>):

$("#china").each(function(){...});

具體到此處是:

$("#leftmenu").children("h3:contains(‘text‘)").next("ul").each(function(){...});

 

 找到id為leftmenu的節點,在其下找到一個內容包含為”text”的h3節點,再取其接下來的一個ul節點。

 在python裡要是用RE來處理就略麻煩一些:

block_pattern=re.compile(u"<h3>檔案</h3>(.*?)<h3>", re.I | re.S)m=block_pattern.findall(content)item_pattern=re.compile(u"<li>(.*?)</li>", re.I | re.S)items=item_pattern.findall(m[0])for i in items:    print i

那麼用xpath要怎麼做呢?其實跟jQuery是差不多的:

nodes=tree.xpath("/descendant::ul[@id=‘china‘]")

 當然,現在沒有id的話也就只能用類似於jQuery的方法了。完整的xpath應該是這樣寫的(注意,原檔案中的TAG有大小寫情況,但是在XPATH裡只能用小寫):

nodes=tree.xpath(u"/html/body/form/div[@id=‘leftmenu‘]/h3[text()=‘text‘]/following-sibling::ul[1]")

更簡單的方法就是像jQuery那樣直接根據id定位:

nodes=tree.xpath(u"//div[@id=‘leftmenu‘]/h3[text()=‘text‘]/following-sibling::ul[1]")

 這兩種方法返回的結果中,nodes[0]就是那個“text”的h3節點後面緊跟的第一個ul節點,這樣就可以列出後面所有的ul節點內容了。

如果ul節點下面還有其他的節點,我們要找到更深節點的內容,如下的迴圈就是把這些節點的常值內容列出:

nodes=nodes[0].xpath("li/a")for n in nodes:    print n.text

對比三種方法應該可以看出xpath和jQuery對於頁面的解析都是基於XML的語義進行,而RE則純粹是基於plain text。RE對付簡單的頁面是沒有問題,如果頁面結構複雜度較高的時候(比如一堆的DIV來回嵌套之類),設計一個恰當的RE pattern可能會遠比寫一個xpath要複雜。特別是目前主流的基於CSS的頁面設計方式,其中大部分關鍵節點都會有id――對於使用jQuery的頁面來說則更是如此,這時xpath相比RE就有了決定性的優勢。

 

附錄:基本XPATH文法介紹,詳細請參考XPath的官方文檔

XPATH基本上是用一種類似分類樹的方法來描述在XML文檔中的路徑。比如用“/”來作為上下層級間的分隔。第一個“/”表示文檔的根節點(注意,不是指文檔最外層的tag節點,而是指文檔本身)。比如對於一個HTML檔案來說,最外層的節點應該是”/html”。

同樣的,“..”和“.”分別被用來表示父節點和本節點。

XPATH返回的不一定就是唯一的節點,而是合格所有節點。比如在HTML文檔裡使用“/html/head/scrpt”就會把head裡的所有script節點都取出來。

為了縮小定位範圍,往往還需要增加過濾條件。過濾的方法就是用“[”“]”把過濾條件加上。比如在HTML文檔裡使用“/html/body/div[@id=‘main‘]”,即可取出body裡id為main的div節點。

其中@id表示屬性id,類似的還可以使用如@name, @value, @href, @src, @class….

而 函數text()的意思則是取得節點包含的文本。比如:<div>hello<p>world</p>< /div>中,用”div[text()=‘hello‘]“即可取得這個div,而world則是p的text()。

函數position()的意思是取得節點的位置。比如“li[position()=2]”表示取得第二個li節點,它也可以被省略為“li[2]”。

不過要注意的是數字定位和過濾 條件的順序。比如“ul/li[5][@name=‘hello‘]”表示取ul下第五項li,並且其name必須是hello,否則返回空。而如果用 “ul/li[@name=‘hello‘][5]”的意思就不同,它表示尋找ul下第五個name為”hello“的li節點。

此外,“*”可以代替所有的節點名,比如用”/html/body/*/span”可以取出body下第二級的所有span,而不管它上一級是div還是p或是其它什麼東東。

而 “descendant::”首碼可以指代任意多層的中間節點,它也可以被省略成一個“/”。比如在整個HTML文檔中尋找id為“leftmenu”的 div,可以用“/descendant::div[@id=‘leftmenu‘]”,也可以簡單地使用“ //div[@id=‘leftmenu‘]”。

至於“following-sibling::”首碼就如其名所說,表示同一層的下一個節點。”following-sibling::*”就是任意下一個節點,而“following-sibling::ul”就是下一個ul節點。

 

 

 

 

 

 

 

 

 

 

Python中利用xpath解析HTML

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.