16.Python使用lxml爬蟲

來源:互聯網
上載者:User

標籤:int   版本   字元   project   代碼   切換   for   nbsp   pythonh   

1.lxml是解析庫,使用時需要匯入該包,直接在命令列輸入:pip3 install lxml,基本上會報錯。正確應該去對應的網址:https://pypi.org/project/lxml/#files,直接下載對應的lxml

(根據python版本自己去選擇,筆者是python3.6,故下載:lxml-4.2.4-cp36-cp36m-win32.whl ,切換到下載的whl目錄,在該目錄下執行:

pip3 install lxml-4.2.4-cp36-cp36m-win32.whl )

2.代碼如下所示:

import requestsfrom lxml import etreeurl = ‘https://www.mafengwo.cn/gonglve/ziyouxing/2033.html‘response = requests.get(url)   #返回一個response對象page = response.texthtml = etree.HTML(page)      #返回一個Element對象,將字串解析為HTML文檔content = html.xpath(‘//h2‘)for i in content:    print(i.text)

3.代碼解釋:

A:定義好url的路徑,使用url擷取到response對象   如:url = ‘‘

B:需要將reponse對象轉化為字串格式,page = response.text

C:使用解析庫將字串轉為為HTML文檔,根據自己想要擷取的內容去定義xpath路徑

16.Python使用lxml爬蟲

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.