第一篇部落格(python爬取小故事網並寫入mysql)

來源:互聯網
上載者:User

標籤:set   需要   odi   優先   fat   image   ima   findall   close   

  • 前言:

  這是一篇來自整理EVERNOTE的筆記所產生的小部落格,實現功能主要為用廣度優先演算法爬取小故事網,爬滿100個連結並寫入mysql,雖然CS作為雙學位已經修習了三年多了,但不僅理論知識一般,動手能力也很差,在學習的空餘時間前前後後DEBUG了很多次,下面給出原始碼及所遇到的BUG。

  本部落格參照代碼及PROJECT來源:http://kexue.fm/archives/4385/

  • 原始碼:
 1 import requests as rq 2 import re 3 import codecs 4 import queue 5 import pymysql 6 from urllib.request import urlopen 7 from bs4 import BeautifulSoup 8  9 tasks = queue.Queue()  # 連結隊列10 tasks_pass = set()  # 已隊列過的連結11 results = {}  # 結果變數12 count = 0  # 爬取頁面總數13 tasks.put(‘/index.html‘)  # 把首頁加入到連結隊列14 tasks_pass.add(‘/index.html‘)  # 把首頁加入到已隊列連結15 db = pymysql.connect("localhost","testuser","test123","TESTDB",charset=‘gbk‘)16 dbc = db.cursor()17 18 while count<=100:19     url = tasks.get() #取出一個連結20     url = ‘http://wap.xigushi.com‘+url21     web = rq.get(url).content.decode(‘gbk‘) #這裡的編碼要看實際情形而定22     urls = re.findall(‘href="(/.*?)"‘, web) #尋找所有站內連結23     for u in urls:24         if u not in tasks_pass: #把還沒有隊列過的連結排入佇列25             tasks.put(u)26             tasks_pass.add(u)27     html=urlopen(url)28     bsObj=BeautifulSoup(html.read(),"lxml")29     if not (re.search(‘images‘,url)):30         # print(re.search(‘images‘, url))31         text=bsObj.title.get_text()32         print(url + ‘   ‘ + text)33         sql = "insert into data1(url,title) values(%s,%s);"34         data=(url,text)35         dbc.execute(sql,data)36         db.commit()37     else:38         if (re.search(‘images‘,url).span()):39             print(‘---------------------------skipping--------------------------------------------‘)40     count += 141 db.close()42 43 with codecs.open(‘results.txt‘, ‘w‘, encoding=‘utf-8‘) as f:44         f.write(‘\n‘.join(results.items()))
  • 備忘:

  原PROJECT採取多線程並寫入MongoDB,我因為還不熟悉多線程,採取了單線程,出於對mysql的偏好和熟悉選取了mysql。

  • BUG:
  1. 編碼問題:
    小故事網的編碼是GB2312,可以從網頁原始碼的META標籤中讀出,因為GBK向下與GB2312相容,所以可以用GBK解碼。值得注意的是,mysql預設編碼為latin-1,遇到編碼問題時,在google時給出的答案都是UTF-8,但在將mysql字元集改為UTF-8後,pycharm讀取正常,但mysql顯示還是亂碼,需要將其改為GBK才可以,雖然在猜想UTF-8應該相容GBK才對...在對mysql修改字元集的時候,又反覆操作了幾次,才發現原來有資料庫、表、欄位的區別...最終都改了...
    修改mysql字元集這個網站講得很好:http://fatkun.com/2011/05/mysql-alter-charset.html
  2. Regex匹配問題:
    代碼主要是為了爬取連結和對應的標題,但在碰到圖片的時候就會報錯,這時打算寫個正則過濾掉,沒想到寫出來了沒反應...最後只能加了個判斷過濾...coding仍需加強...

 

第一篇部落格(python爬取小故事網並寫入mysql)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.