urllib2、re、json的綜合使用

來源:互聯網
上載者:User

標籤:blog   class   code   java   javascript   get   

最近開始使用扇貝背單詞,需要將以前積累在有道單詞本裡的單詞匯入到扇貝中。然後,扇貝並沒有提供生詞匯入功能,需要使用"大量新增功能"手動添加單詞。而大量新增功能一次只能添加十個單詞,近千個單詞需要添加九十餘次。於是想編寫一個簡單的指令碼添加單詞。 指令碼需要完成的功能:

一、思路
  1. 解析有道單詞本,將自己收藏的單詞全部抓取下來;
  2. 類比大量新增功能,將抓取的單詞提交到扇貝上。

在解析"大量新增功能"時,發現網頁使用Get方法提交一個包括單詞和隨機字串的網址。比如?

1 http://www.shanbay.com/bdc/vocabulary/add/batch/?words=first&_=1399122494234
。"words="後面是需要添加的單詞,"&_="後面是一個隨機字條串。這個隨機字串自己一直無法解析。 後來在德問上提問,得知它是用來防止csrf攻擊的。cookie裡有一個欄位叫"csrftoken",是Django架構用來防止csrf攻擊產生的一個cookie,伺服器會使用這個cookie產生一個隨機字串。 更方便的方法是使用扇貝提供的API來解決。

二、實現思路
  1. 解析單詞本

    1.1 登陸有道單詞本,首先使用瀏覽器登陸,複製所有cookie出來,構建一個包含cookie的urllib2.opener,需要庫urllib2;

    1.2 提取一頁中的單詞,添加到一個集合(set)中,需要庫re;

    1.3 下一頁,直到結束。

  2. 提交單詞

    2.1 同樣方法構建一個扇貝網的opener;

    2.2 使用api提交集合中的單詞;

    2.3 解析返回的json對象,顯示提交失敗的單詞,需要庫json。

三、 Prototype

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.