Python庫詳解之網路(1)–抓取網頁

來源:互聯網
上載者:User

剛剛寫完Python嵌入部分的簡單例子(差不多夠現在用的啦~),接著看點實際的東西,如果沒有這些應用的話,前面的嵌入也沒有什麼意義。嵌入的其他部分以後遇到再寫,不必一下子把那些函數都弄懂,是吧~

 

OK,來看Python庫中我認為最好玩的一部分,也就是Python對網頁的操作。

 

這篇簡單說下如何通過網址下載網頁,前提當然是要能上網。

我這裡是將網易的網頁下下來儲存在test.html檔案中。

 

下載網頁只需要2行代碼:

 

#注意現在python3.1版本與以前有了很大變化,過去代碼好多不能用,需要稍微修改下哦

import urllib.request            

urllib.request.urlretrieve('http://www.163.com','test.html') #你們用雙引號試下,我這怎麼有問題?單引號和雙引號在這裡有區別嗎?

 

呵呵,不是覺得太簡單了點,但我還是比較喜歡下面代碼多點的實現方式(我沒有添加異常,如果是稍微正式點的編碼,請添些處理異常的代碼吧):

import urllib
import urllib.request

 

url=urllib.request.urlopen("http://www.163.com")
file=open("test.html",'wb') #it's 'wb',not 'w'

while(1):
 line=url.readline()
 if len(line)==0:
  break
 file.write(line)
 

呵呵,現在是不是感覺下載網頁真沒意思~

OK,下篇說下如何解析我們下載下來的網頁,這樣下下來的網頁才有用嘛~ ^_^

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.