Scrapy基礎————將不定長度的URL進行固定長度寫入Item中

來源:互聯網
上載者:User

標籤:span   python   命名   資料庫   back   object_id   from   項目   編碼   


  前面講到將每篇文章的URL寫入Item,但是每個url的長度是不同的,
可以在Item中設定一個欄位怎樣使得每個URL的長度相同,這就需要對每個URL進行md5
運算,使得長度統一,再加入到設定的Item欄位中
  從項目的根目錄下建立一個檔案夾,把所有能用到的自訂方法寫入,,命名為util
並從util下建立一個common.py檔案

寫入以下:

1 import hashlib2 def get_md5(url):3     if isinstance(url,str):                    4         url = url.encode("utf-8")5     m = hashlib.md5()6     m.update(url)7     return m.hexdigest()
轉換編碼的講解python3中所有字元都是Unicode編碼,而md5則是對UTF-8的編碼進行運算,不難理解
計算在cpu中進行,而在記憶體中儲存的應該是utf-8編碼的,為了節省記憶體嘛,而在python2中則不存在這種情況,因為python3中將所有的字元都以Unicode
進行編碼,所有python3則不會出現亂碼問題

 



最後從jobbole.py中引入該方法,並寫入Item這個欄位

from ArticalSpider.util.common import get_md5artical_item["url_object_id"] = get_md5(response.url)

 


至此,所有的Item欄位都添加完畢,剩下的就是寫入資料庫了




Scrapy基礎————將不定長度的URL進行固定長度寫入Item中

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.