python解析庫之 XPath

來源:互聯網
上載者:User

標籤:bubuko   res   規則   沒有   fir   http   int   on()   構造   

1. XPath (XML Path Language) XML路徑語言

2. XPath 常用規則:

  nodename    選取此節點的所有子節點

  /                    從當前結點選取直接子節點

  //                   從當前結點選取子孫節點

  .                    選取當前結點

  ..                   選取當前結點的父節點

  @                 選取屬性

3. 執行個體

 1 from lxml import etree 2  3 text = ‘‘‘ 4 <div> 5     <ul> 6         <li class="item-0"><a href="link1.html">first item</a></li> 7         <li class="item-1"><a href="link2.html">second item</a></li> 8         <li class="item-inactive"><a href="link3.html">third item</a></li> 9         <li class="item-1"><a href="link4.html">fourth item</a></li>10         <li class="item-0"><a href="link5.html">fifth item</a>11     </ul>12 </div>13 ‘‘‘14 html = etree.HTML(text) # 初始化,構造XPath對象15 # 自動修正html代碼,最後一個<li>沒有閉合,tostring()方法補全html代碼,返回結果是bytes類型16 result = etree.tostring(html)17 print(result.decode(‘utf-8‘))

也可以讀取檔案來進行解析

1 from lxml import etree2 3 html = etree.parse(r‘C:\Users\Administrator\Desktop\test.txt‘, etree.HTMLParser())4 result = etree.tostring(html) 5 print(result.decode(‘utf-8‘))

4. 使用//開頭的XPath規則來選取符合要求的節點

from lxml import etreetext = ‘‘‘<div>    <ul>        <li class="item-0"><a href="link1.html">first item</a></li>        <li class="item-1"><a href="link2.html">second item</a></li>        <li class="item-inactive"><a href="link3.html">愛我中華</a></li>        <li class="item-1"><a href="link4.html">fourth item</a></li>        <li class="item-0"><a href="link5.html">fifth item</a>    </ul></div>‘‘‘‘‘‘匹配節點‘‘‘html = etree.HTML(text)result1 = html.xpath(‘//*‘)  # 使用*匹配所有節點print(result1)result2 = html.xpath(‘//li‘) # 擷取所有的li節點print(result2)print(result2[0])result3 = html.xpath(‘//li/a‘)  # 擷取所有li節點的直接a子節點print(result3)# 首先選中href屬性為link3.html的a節點,然後再擷取其父親節點,在擷取其class屬性的值# result4 為[‘item-inactive‘],這是個只有一個元素的列表result4 = html.xpath(‘//a[@href="link3.html"]/../@class‘)print(result4[0])# 同時, 也可以通過parent::來擷取父親節點 如:result5 = html.xpath(‘//a[@href="link3.html"]/parent::*/@class‘)‘‘‘屬性匹配  (選取節點時,可以用@符號進行屬性過濾)‘‘‘# 匹配屬性class="item-inactive"的li節點result6 = html.xpath(‘//li[@class="item-inactive"]‘)print(result6)‘‘‘文本擷取 (使用XPath中的text()方法擷取節點中的文本)‘‘‘result7 = html.xpath(‘//li[@class="item-inactive"]/a[@href="link3.html"]/text()‘)print(result7) #  列印出 [‘愛我中華‘] 列表‘‘‘屬性擷取 使用@來擷取屬性‘‘‘# 匹配屬性href="link3.html"的a節點的父親節點的class屬性result8 = html.xpath(‘//a[@href="link3.html"]/../@class‘)print(result8) # 列印[‘item-inactive‘]‘‘‘屬性多值匹配‘‘‘html_test = ‘‘‘<li class="li item-inactive"><a href="link3.html">愛我中華</a></li>‘‘‘# 這裡li標籤class屬性有兩個值, 如果按照上邊的屬性匹配 是匹配不到的,就要用到contains()函數html_test = etree.HTML(html_test)# 通過contains方法,第一個參數穿屬性名稱,第二個傳屬性值中的任意一個,都可以匹配到result9 = html_test.xpath(‘//li[contains(@class, "li")]/a/text()‘)print(result9)‘‘‘多屬性匹配 (根據多個屬性來確定一個節點)‘‘‘html_test2 = ‘‘‘<li class="li item-inactive" name="item"><a href="link3.html">Hello World</a></li>‘‘‘# 這裡li標籤class屬性有兩個值, 如果按照上邊的屬性匹配 是匹配不到的,就要用到contains()函數html_test = etree.HTML(html_test2)# 通過contains方法,第一個參數穿屬性名稱,第二個傳屬性值中的任意一個,都可以匹配到result10 = html_test.xpath(‘//li[contains(@class, li) and @name="item"]/a[@href="link3.html"]/text()‘)print(result10) # 列印[‘Hello World‘]

 

5. XPath 運算子

5. 按序選擇 (同時匹配了多個節點時但又只想要其中一個節點時)

 

from lxml import etreetext = ‘‘‘<div>    <ul>        <li class="item-0"><a href="link1.html">first item</a></li>        <li class="item-1"><a href="link2.html">second item</a></li>        <li class="item-inactive"><a href="link3.html">愛我中華</a></li>        <li class="item-1"><a href="link4.html">fourth item</a></li>        <li class="item-0"><a href="link5.html">fifth item</a>    </ul></div>‘‘‘‘‘‘匹配節點後按序選擇‘‘‘html = etree.HTML(text)result1 = html.xpath(‘//li[1]/a/text()‘)  # 選取匹配到的li節點的第一個print(result1)result2 = html.xpath(‘//li[last()]/a/text()‘)  # 選取匹配到的li節點的最後一個print(result2)result3 = html.xpath(‘//li[position()<3]/a/text()‘)  # 選取匹配到的所有li節點中位置小於3,也就時第1,2個print(result3)result4 = html.xpath(‘//li[last()-2]/a/text()‘)  # 選取匹配到的li節點的倒數第三個print(result4)‘‘‘節點軸選擇‘‘‘html = etree.HTML(text)result5 = html.xpath(‘//li[1]/ancestor::*‘)  # 選取匹配到的li節點的第一個的所有祖先節點print(result5)result6 = html.xpath(‘//li[1]/attribute::*‘)  # 選取匹配到的li節點的所有屬性值print(result6)result7 = html.xpath(‘//li[1]/child::a‘)  # 選取匹配到的li節點的所有子節點print(result7)result8 = html.xpath(‘//li[1]/descendant::a‘)  # 選取匹配到的li節點的所有子孫節點print(result8)result9 = html.xpath(‘//li[1]/following::*‘)  # 選取擷取到的當前結點後的所有節點print(result9)result10 = html.xpath(‘//li[1]/following-sibling::*‘)  # 選取擷取到的當前結點之後的所有同級節點print(result10)

 

python解析庫之 XPath

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.