標籤:set 需要 odi 優先 fat image ima findall close
這是一篇來自整理EVERNOTE的筆記所產生的小部落格,實現功能主要為用廣度優先演算法爬取小故事網,爬滿100個連結並寫入mysql,雖然CS作為雙學位已經修習了三年多了,但不僅理論知識一般,動手能力也很差,在學習的空餘時間前前後後DEBUG了很多次,下面給出原始碼及所遇到的BUG。
本部落格參照代碼及PROJECT來源:http://kexue.fm/archives/4385/
1 import requests as rq 2 import re 3 import codecs 4 import queue 5 import pymysql 6 from urllib.request import urlopen 7 from bs4 import BeautifulSoup 8 9 tasks = queue.Queue() # 連結隊列10 tasks_pass = set() # 已隊列過的連結11 results = {} # 結果變數12 count = 0 # 爬取頁面總數13 tasks.put(‘/index.html‘) # 把首頁加入到連結隊列14 tasks_pass.add(‘/index.html‘) # 把首頁加入到已隊列連結15 db = pymysql.connect("localhost","testuser","test123","TESTDB",charset=‘gbk‘)16 dbc = db.cursor()17 18 while count<=100:19 url = tasks.get() #取出一個連結20 url = ‘http://wap.xigushi.com‘+url21 web = rq.get(url).content.decode(‘gbk‘) #這裡的編碼要看實際情形而定22 urls = re.findall(‘href="(/.*?)"‘, web) #尋找所有站內連結23 for u in urls:24 if u not in tasks_pass: #把還沒有隊列過的連結排入佇列25 tasks.put(u)26 tasks_pass.add(u)27 html=urlopen(url)28 bsObj=BeautifulSoup(html.read(),"lxml")29 if not (re.search(‘images‘,url)):30 # print(re.search(‘images‘, url))31 text=bsObj.title.get_text()32 print(url + ‘ ‘ + text)33 sql = "insert into data1(url,title) values(%s,%s);"34 data=(url,text)35 dbc.execute(sql,data)36 db.commit()37 else:38 if (re.search(‘images‘,url).span()):39 print(‘---------------------------skipping--------------------------------------------‘)40 count += 141 db.close()42 43 with codecs.open(‘results.txt‘, ‘w‘, encoding=‘utf-8‘) as f:44 f.write(‘\n‘.join(results.items()))
原PROJECT採取多線程並寫入MongoDB,我因為還不熟悉多線程,採取了單線程,出於對mysql的偏好和熟悉選取了mysql。
- 編碼問題:
小故事網的編碼是GB2312,可以從網頁原始碼的META標籤中讀出,因為GBK向下與GB2312相容,所以可以用GBK解碼。值得注意的是,mysql預設編碼為latin-1,遇到編碼問題時,在google時給出的答案都是UTF-8,但在將mysql字元集改為UTF-8後,pycharm讀取正常,但mysql顯示還是亂碼,需要將其改為GBK才可以,雖然在猜想UTF-8應該相容GBK才對...在對mysql修改字元集的時候,又反覆操作了幾次,才發現原來有資料庫、表、欄位的區別...最終都改了...
修改mysql字元集這個網站講得很好:http://fatkun.com/2011/05/mysql-alter-charset.html
- Regex匹配問題:
代碼主要是為了爬取連結和對應的標題,但在碰到圖片的時候就會報錯,這時打算寫個正則過濾掉,沒想到寫出來了沒反應...最後只能加了個判斷過濾...coding仍需加強...
第一篇部落格(python爬取小故事網並寫入mysql)