當屌絲想看《蜀山劍俠傳》[python螢幕抓取]

來源:互聯網
上載者:User

想看《蜀山》,就下載了蜀山劍俠傳.txt.放在的電子書裡。

但看了會覺得檔案挺大的,電子書載入起來也挺慢了,也沒下著分回目版的,就想著把它按章回拆分到的各個檔案。

想想無非就是讀取下檔案,正則匹配一下,檔案分割下,就完事大吉了。 

coding時覺得這種方式肯定慢, 不如去線上閱讀的地方抓取一下。於是找到【蜀山劍俠傳---還珠樓主---天涯線上書庫】,把檔案分割的問題變成螢幕抓取的問題。

code:

from urllib import urlopen
import re

titleRe = re.compile('(?<="biaoti">).+?(?=</span>)')
contentRe = re.compile("(?<='content'>).+?(?=</td>)",re.DOTALL)

dirPath = 'f:\shushanjianxiazhuan\\'
urlPath = 'http://www.tianyabook.com/wuxia/huanzhulouzhu/shushanjianxiazhuan/'

for x in xrange(1,310):
    x = str(x)
    url = urlPath + x+ '.htm'
    page = urlopen(url).read()
    title = titleRe.search(page).group()
    content = contentRe.search(page).group()
    content = content.replace('<BR>','\n')
    f = file(dirPath+x+title+'.txt','w')
    f.write(title+'\n'+content)
    f.close()
    print title

子在川上曰:《蜀山》是一部超級超級超級浪漫恢宏的作品,只可惜我早生了兩千年。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.