標籤:
前言
拿來練手的,比較簡單(且有bug),歡迎交流~
功能介紹
抓取當日的知乎日報的內容,並將每篇博文另存新檔一個txt檔案,集中放在一個檔案夾下,檔案夾名字為當日時間。
使用的庫
re,BeautifulSoup,sys,urllib2
注意事項
1.運行環境是Linux,python2.7.x,想在win上使用直接改一下裡邊的命令就可以了
2.bug是在處理 “如何正確吐槽”的時候只能擷取第一個(懶癌發作了)
3.直接擷取(如下)內容是不可以的,知乎做了反抓取的處理
urllib2.urlop(url).read()
所以加個Headers就可以了
1 def getHtml(url):2 header={‘User-Agent‘ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1‘,‘Referer‘ : ‘******‘}3 request=urllib2.Request(url,None,header)4 response=urllib2.urlopen(request)5 text=response.read()6 return text
4.在做內容分析的時候可以直接使用re,也可以直接調用BeautifulSoup裡的函數(我對Regex發怵,所以直接bs),比如
1 def saveText(text):2 soup=BeautifulSoup(text)3 filename=soup.h2.get_text()+".txt"4 fp=file(filename,‘w‘)5 content=soup.find(‘div‘,"content")6 content=content.get_text()
show me the code
1 #Filename:getZhihu.py 2 import re 3 import urllib2 4 from bs4 import BeautifulSoup 5 import sys 6 7 reload(sys) 8 sys.setdefaultencoding("utf-8") 9 10 #get the html code11 def getHtml(url):12 header={‘User-Agent‘ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1‘,‘Referer‘ : ‘******‘}13 request=urllib2.Request(url,None,header)14 response=urllib2.urlopen(request)15 text=response.read()16 return text17 #save the content in txt files18 def saveText(text):19 soup=BeautifulSoup(text)20 filename=soup.h2.get_text()+".txt"21 fp=file(filename,‘w‘)22 content=soup.find(‘div‘,"content")23 content=content.get_text()24 25 # print content #test26 fp.write(content)27 fp.close()28 #get the urls from the zhihudaily.ahorn.com29 def getUrl(url):30 html=getHtml(url) 31 # print html32 soup=BeautifulSoup(html)33 urls_page=soup.find(‘div‘,"post-body")34 # print urls_page35 36 urls=re.findall(‘"((http)://.*?)"‘,str(urls_page))37 return urls 38 #main() founction39 def main():40 page="http://zhihudaily.ahorn.me"41 urls=getUrl(page)42 for url in urls:43 text=getHtml(url[0])44 saveText(text)45 46 if __name__=="__main__":47 main()
python擷取知乎日報另存新檔txt檔案