Python 爬蟲 大量資料清洗 ---- sql語句最佳化

來源:互聯網
上載者:User

標籤:添加   方案   處理   bsp   post   for   color   公司   name   

1. 問題描述    在做爬蟲的時候,資料量很大,大約有五百百萬條資料,假設有個欄位是conmany_name(拍賣公司名稱),我們現在需要從五百萬條資料裡面尋找出來五十家拍賣公司,
  並且要求欄位 time(時間) 大於7月一號,小於10月31號。
2. 問題解決        我們首先想到的解決辦法是添加索引,對拍賣公司欄位添加索引,但是因為日期是大於7月1號,小於10月31號,在這裡用索引的效率很低,
  並且要重複的查詢出來五十家公司,效率很低,有沒有好的解決方案呢???
3.解決問題思路    1.查詢五百條資料,我們會發現記憶體不夠用,這時候我們只查詢一百萬條資料,分五次處理完畢。    2.因為這一百萬條資料在記憶體中,把這一百萬條資料放到list中去,同時把五十家拍賣公司組合成字串,然後for迴圈每一條資料,
    比較拍賣公司是否在字串中,比較日期是否大於7月一號,小於10月31號。這樣去處理,避免資料查詢的速度慢。提高資料處理效率。4.感想: 好的解決問題的思路勝過好的解決問題的人

 


 

Python 爬蟲 大量資料清洗 ---- sql語句最佳化

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.