具體介紹請參考: 微博資料清洗(Java版)
本文是Python版本的介紹,只有資料清洗部分不含對Excel的操作,包含去除html標籤和去掉資訊裡的url地址。
Python的代碼相對java簡明了太多
# -*- coding: UTF-8 -*-'''Created on 2013年12月10日@author: daT dev.tao@gmail.com'''import redef dealHtmlTags(html): ''' 去掉html標籤 ''' from HTMLParser import HTMLParser html=html.strip() html=html.strip("\n") result=[] parse=HTMLParser() parse.handle_data=result.append parse.feed(html) parse.close() return "".join(result)def dealUrl(text): ''' 去掉微博資訊中的url地址 ''' return re.sub('''http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+''', '',text) if __name__== "__main__": html = """接下來一年,我希望在<SPAN style="COLOR: red">惠普</SPAN>電腦看到更人性化,各科技化的東西,更能提升視覺享受的東西。 地址:<A title=http://t.cn/8kUAX2z href="http://t.cn/8kUAX2z" target=_blank suda-data="key=tblog_search_v4.1&value=weibo_feed_url" :3651215114310513>http://t.cn/8kUAX2z<SPAN class=feedico_active></SPAN></A> """ html = dealHtmlTags(html) print dealUrl(html)