標籤:bubuko res 規則 沒有 fir http int on() 構造
1. XPath (XML Path Language) XML路徑語言
2. XPath 常用規則:
nodename 選取此節點的所有子節點
/ 從當前結點選取直接子節點
// 從當前結點選取子孫節點
. 選取當前結點
.. 選取當前結點的父節點
@ 選取屬性
3. 執行個體
1 from lxml import etree 2 3 text = ‘‘‘ 4 <div> 5 <ul> 6 <li class="item-0"><a href="link1.html">first item</a></li> 7 <li class="item-1"><a href="link2.html">second item</a></li> 8 <li class="item-inactive"><a href="link3.html">third item</a></li> 9 <li class="item-1"><a href="link4.html">fourth item</a></li>10 <li class="item-0"><a href="link5.html">fifth item</a>11 </ul>12 </div>13 ‘‘‘14 html = etree.HTML(text) # 初始化,構造XPath對象15 # 自動修正html代碼,最後一個<li>沒有閉合,tostring()方法補全html代碼,返回結果是bytes類型16 result = etree.tostring(html)17 print(result.decode(‘utf-8‘))
也可以讀取檔案來進行解析
1 from lxml import etree2 3 html = etree.parse(r‘C:\Users\Administrator\Desktop\test.txt‘, etree.HTMLParser())4 result = etree.tostring(html) 5 print(result.decode(‘utf-8‘))
4. 使用//開頭的XPath規則來選取符合要求的節點
from lxml import etreetext = ‘‘‘<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">愛我中華</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul></div>‘‘‘‘‘‘匹配節點‘‘‘html = etree.HTML(text)result1 = html.xpath(‘//*‘) # 使用*匹配所有節點print(result1)result2 = html.xpath(‘//li‘) # 擷取所有的li節點print(result2)print(result2[0])result3 = html.xpath(‘//li/a‘) # 擷取所有li節點的直接a子節點print(result3)# 首先選中href屬性為link3.html的a節點,然後再擷取其父親節點,在擷取其class屬性的值# result4 為[‘item-inactive‘],這是個只有一個元素的列表result4 = html.xpath(‘//a[@href="link3.html"]/../@class‘)print(result4[0])# 同時, 也可以通過parent::來擷取父親節點 如:result5 = html.xpath(‘//a[@href="link3.html"]/parent::*/@class‘)‘‘‘屬性匹配 (選取節點時,可以用@符號進行屬性過濾)‘‘‘# 匹配屬性class="item-inactive"的li節點result6 = html.xpath(‘//li[@class="item-inactive"]‘)print(result6)‘‘‘文本擷取 (使用XPath中的text()方法擷取節點中的文本)‘‘‘result7 = html.xpath(‘//li[@class="item-inactive"]/a[@href="link3.html"]/text()‘)print(result7) # 列印出 [‘愛我中華‘] 列表‘‘‘屬性擷取 使用@來擷取屬性‘‘‘# 匹配屬性href="link3.html"的a節點的父親節點的class屬性result8 = html.xpath(‘//a[@href="link3.html"]/../@class‘)print(result8) # 列印[‘item-inactive‘]‘‘‘屬性多值匹配‘‘‘html_test = ‘‘‘<li class="li item-inactive"><a href="link3.html">愛我中華</a></li>‘‘‘# 這裡li標籤class屬性有兩個值, 如果按照上邊的屬性匹配 是匹配不到的,就要用到contains()函數html_test = etree.HTML(html_test)# 通過contains方法,第一個參數穿屬性名稱,第二個傳屬性值中的任意一個,都可以匹配到result9 = html_test.xpath(‘//li[contains(@class, "li")]/a/text()‘)print(result9)‘‘‘多屬性匹配 (根據多個屬性來確定一個節點)‘‘‘html_test2 = ‘‘‘<li class="li item-inactive" name="item"><a href="link3.html">Hello World</a></li>‘‘‘# 這裡li標籤class屬性有兩個值, 如果按照上邊的屬性匹配 是匹配不到的,就要用到contains()函數html_test = etree.HTML(html_test2)# 通過contains方法,第一個參數穿屬性名稱,第二個傳屬性值中的任意一個,都可以匹配到result10 = html_test.xpath(‘//li[contains(@class, li) and @name="item"]/a[@href="link3.html"]/text()‘)print(result10) # 列印[‘Hello World‘]
5. XPath 運算子
5. 按序選擇 (同時匹配了多個節點時但又只想要其中一個節點時)
from lxml import etreetext = ‘‘‘<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">愛我中華</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul></div>‘‘‘‘‘‘匹配節點後按序選擇‘‘‘html = etree.HTML(text)result1 = html.xpath(‘//li[1]/a/text()‘) # 選取匹配到的li節點的第一個print(result1)result2 = html.xpath(‘//li[last()]/a/text()‘) # 選取匹配到的li節點的最後一個print(result2)result3 = html.xpath(‘//li[position()<3]/a/text()‘) # 選取匹配到的所有li節點中位置小於3,也就時第1,2個print(result3)result4 = html.xpath(‘//li[last()-2]/a/text()‘) # 選取匹配到的li節點的倒數第三個print(result4)‘‘‘節點軸選擇‘‘‘html = etree.HTML(text)result5 = html.xpath(‘//li[1]/ancestor::*‘) # 選取匹配到的li節點的第一個的所有祖先節點print(result5)result6 = html.xpath(‘//li[1]/attribute::*‘) # 選取匹配到的li節點的所有屬性值print(result6)result7 = html.xpath(‘//li[1]/child::a‘) # 選取匹配到的li節點的所有子節點print(result7)result8 = html.xpath(‘//li[1]/descendant::a‘) # 選取匹配到的li節點的所有子孫節點print(result8)result9 = html.xpath(‘//li[1]/following::*‘) # 選取擷取到的當前結點後的所有節點print(result9)result10 = html.xpath(‘//li[1]/following-sibling::*‘) # 選取擷取到的當前結點之後的所有同級節點print(result10)
python解析庫之 XPath