python爬蟲模組之HTML解析模組

來源:互聯網
上載者:User

標籤:class   IV   str   highlight   dem   比較   lis   就是   val   

這個就比較簡單了沒有什麼好強調的,如果返回的json 就是直接按照索引值取,如果是網頁就是用lxml模組的html進行xpath解析。

from lxml import htmlimport jsonclass GetNodeList():    def __init__(self):        self.getdivxpath="//div[@class=‘demo‘]"    def use_xpath(self,source):        if len(source):            root=html.fromstring(source) #html轉換成dom對象            nodelist=root.xpath(self.getdivxpath)#對dom對象進行xpath解析            if len(nodelist):                return nodelist            return None                def use_json(self, source,keyname):        if len(source):            jsonstr=json.loads(source)            value=jsonstr.get(keyname) #根據具體的索引值修改            if len(value):                return value            return None

  

python爬蟲模組之HTML解析模組

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.