python:使用OO和原廠模式解決問題

來源:互聯網
上載者:User

上次說到,用DOM樹的方法替代Regex,去匹配替換具有特定屬性值的HTML標籤,第一次選用的是BeautifulSoup,但是領導更中意lxml這個庫,因此我把代碼抽取出來抽象成一個介面,讓代碼依賴介面,而不是具體的實現,代碼並不知道我到底使用的是什麼第三方庫,後來更增加一個Factory 方法,讓外部連我用的什麼類都不讓它知道:)

#!/usr/bin/env python# -*- coding: utf-8 -*-#原廠模式def createDomTree(htmlStream,type='soup'):    if type == "soup":        return tnDomTreeWithSoup(htmlStream)        if type == "lxml":        return tnDomTreeWithlXml(htmlStream)        return None    #外部依賴的介面,它屏蔽了我具體使用的第三方庫class tnDomTree:    def __init__(self,htmlStream):        self.htmlStream = htmlStream        def getLinkList(self):        pass        def getImageList(self):        pass        def elementToString(self,element):        pass        def getAttrValueOfElement(self,element,attName):        pass#使用BeautifulSoup的類from BeautifulSoup import BeautifulSoupclass tnDomTreeWithSoup(tnDomTree):    def __init__(self,htmlStream):        tnDomTree.__init__(self,htmlStream)        self._tree = BeautifulSoup(self.htmlStream)        def getLinkList(self):        return self._tree.findAll('a')        def getImageList(self):        return self._tree.findAll('img')        def elementToString(self,element):        return str(element)        def getAttrValueOfElement(self,element,attName):        if hasattr(element,attName):            return str(element[attName])        else:            return ""#使用lxmlfrom lxml.html import tostringfrom lxml.html.soupparser import fromstringclass tnDomTreeWithlXml(tnDomTree):    def __init__(self,htmlStream):        tnDomTree.__init__(self,htmlStream)        self._tree = fromstring(self.htmlStream)        def getLinkList(self):        list = []        for i in self._tree.iter():            if i.tag == 'a':                list.append(i)        return list        def getImageList(self):        list = []        for i in self._tree.iter():            if i.tag == 'img':                list.append(i)        return list        def elementToString(self,element):        return tostring(element)        def getAttrValueOfElement(self,element,attName):        if attName in set(element.keys()):            return str(element.attrib[attName])        else:            return ""if __name__ == "__main__":    s1 = '''    <p>BEIAI</p> <p><img src="/attachment/28" alt=""></p>    '''    print s1    domtree = createDomTree(s1,'soup')    list = domtree.getImageList()    for i in list:        print domtree.getAttrValueOfElement(i,'src')        print domtree.elementToString(i)

後來發現一個問題,lxml庫的tostring方法總是<img src="..." />轉換成<img src="...">這個不符合我的設計要求,我的設計思路是,在DOM上遍曆img節點,將有特定src值的節點放入list,遍曆list將每一個元素都抓換成其原始HTML代碼。整體替換之,由於它tostring時擅自修改了HTML源碼導致務替換的時候沒有匹配的目標字串,從而產生BUG,所以後來還是決定使用BeautifulSoup,因為抽象出介面了,所以改變使用的第三方庫對於程式來說特別容易:)

PS:BeautifulSoup也並非沒有問題,它的策略與lxml剛好相反,任何單個的<img>標籤,只要沒加/它都產生<img ... />這樣的標籤,但是因為我能保證我要處理的<img>一定是有/的,反而不是問題了,何況加/是標準的寫法,因此還是選擇它了,由此強化了之前的觀點:第三方庫也會不穩定不安全,但是我們僅僅使用它們穩定的功能和模組就可以了

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.