Python中使用HTMLParser解析html執行個體

來源:互聯網
上載者:User
前幾天遇到一個問題,需要把網頁中的一部分內容挑出來,於是找到了urllib和HTMLParser兩個庫.urllib可以將網頁爬下來,然後交由HTMLParser解析,初次使用這個庫,在查官方文檔時也遇到了一些問題,在這裡寫下來與大家分享.

一個例子
複製代碼 代碼如下:


from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
print "a start tag:",tag,self.getpos()
parser=MyHTMLParser()
parser.feed('

"hello"

')


這個例子裡HTMLParser是基類,重載了他的handle_starttag方法,輸出了一些資訊.parser是MyHTMLParser的執行個體,調用feed方法開始解析函數.值得注意的是,不需要顯示調用handle_starttag方法就會執行.

HTMLParser方法的調用方式困惑了我很長時間,看了很多博文才恍然大悟,HTMLParser含有的方法分為兩類,一類是需要顯式調用的,而另一類不需顯示調用.

不需顯式調用的方法

下面的這些函數在解析的過程中會觸發,但是預設情況下不會產生任何副作用,因而我們要根據自己的需求重載.

1.HTMLParser.handle_starttag(tag,attrs): 解析時遇到開始標籤調用,如

,參數tag是標籤名,這裡是'p',attrs為標籤所有屬性(name,value)列表,這裡是[('class','para')]

2.HTMLParser.handle_endtag(tag): 遇到結束標籤時調用,tag是標籤名

3.HTMLPars.handle_data(data): 遇到標籤中間的內容時調用,如,參數data為開閉標籤間的內容.值得注意的是在形如

...

的位置,並不會在div處調用,而是只在p處調用

當然還有其他函數,這裡不做介紹

顯式調用的方法

1.HTMLParser.feed(data): 參數為需要解析的html字串,調用後字串開始被解析

2.HTMLParser.getpos(): 返回當前的行號和位移位置,如(23,5)

3.HTMLParser.get_starttag_text(): 返回當前位置最近的開始標籤的內容

所有的內容寫完了,最後還有一點注意事項,HTMLParser只是一個簡單的模組,解析html的功能並不完善,例如不能準確的分別開標籤和"自閉標籤",看下面代碼:
複製代碼 代碼如下:


from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_starttag(self,tag,attrs):
print 'begin tag',tag
def handle_startendtag(self,tag,attrs):
print 'begin end tag',tag

str1='
'
str2='
'
parser=MyHTMLParser()

parser.feed(str1) # 輸出 "begin tag br"
parser.feed(str2) # 輸出 "begin end br"

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.