Crawling the Android Marketplace

來源:互聯網
上載者:User

1 下載app

當你需要某些app的資訊的時候,怎麼辦,通過瀏覽器手段到官網去擷取資訊是一種方式,也可以自動化方式擷取。

已經有人分析出來google market所使用的protocol buffer協議格式,並且給出了java實現。

如果需要下載app,可以參見: Android Market API。注意,google可能會更改協議,即使如此,還是相當有參考價值。

 

2 擷取app資訊

如果只是擷取app資訊,並不需要下載的話。可以直接用crawler去擷取google market的資訊,已經有人這麼幹了。

參見: Crawling the Android Marketplace

順便給出這個Crawler的代碼,AndroidMarketCrawler

 

3 需要注意的地方。

在2中,作者是從美國擷取的app,裡面crawler很多尋找標誌都是英文的,如果需要寫中文版的,需要把裡面的設定改一改,或者設定為爬英文版的。

還有就是,雖然google market上已經有50萬左右的app,但是作者只爬了大概15萬多,參見:155,200 Apps Available From the US

 

4 用到技術

用到了Python 並髮網絡編程庫Eventlet, 參見:Eventlet。

解析網頁,作者用的是PyQuery。當然,你也可以用Beautiful Soup。

擷取的資料,可以直接儲存為檔案,也可以儲存於sqlite3,或者MongoDB。

Crawler.py:https://github.com/bionicspirit/AndroidMarketCrawler/blob/master/crawler.py

 

 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.