python網路爬蟲入門(二)——用python簡單實現調用Google翻譯,pythonGoogle
最近在看國外的文檔,有些生詞不認識。就用Google翻譯來理解,用著用著閑來無事就按F12查看了下頁面的原始碼。發現可以用python簡單的實現下Google翻譯的頁面功能。於是先上網搜下有沒有類似的文章部落格,發現幾篇不錯的,於是參考其他代碼與自己的思路,簡單的實現了下翻譯的功能,代碼如下:
import re import urllib,urllib2 #----------類比瀏覽器的行為,向Google翻譯發送資料,然後抓取翻譯結果,這就是大概的思路-------def Gtranslate(text): #text 輸入要翻譯的英文句子 Gtext=text #hl:瀏覽器、作業系統語言,預設是zh-CN #ie:預設是UTF-8 #text:就是要翻譯的字串 #langpair:語言對,即'en'|'zh-CN'表示從英語到簡體中文 values={'hl':'zh-CN','ie':'UTF-8','text':Gtext,'langpair':"'en'|'zh-CN'"} #URL用來儲存Google翻譯的網址 url='http://translate.google.cn/' #將values中的資料通過urllib.urlencode轉義為URL專用的格式然後賦給data儲存 data = urllib.urlencode(values) #然後用URL和data產生一個request req = urllib2.Request(url,data) #偽裝一個IE6.0瀏覽器訪問,如果不偽裝,Google將返回一個403錯誤 browser='Mozilla/4.0 (Windows; U;MSIE 6.0; Windows NT 6.1; SV1; .NET CLR 2.0.50727)' req.add_header('User-Agent',browser) #向Google翻譯發送請求 response = urllib2.urlopen(req) #讀取返回頁面,然後我們就從這個HTML頁面中截取翻譯過來的字串即可 html=response.read() #使用Regex匹配<=TRANSLATED_TEXT=)。而翻譯後的文本是'TRANSLATED_TEXT='等號後面的內容 p=re.compile(r"(?<=TRANSLATED_TEXT=).*?;") m=p.search(html) chineseText=m.group(0).strip(';') return chineseText if __name__ == "__main__": #Gtext為待翻譯的字串 Gtext='you should believe yourself,you are the best one! and we sure that you will do something making us being proud of you' print('The input text: %s' % Gtext) chineseText=Gtranslate(Gtext).strip("'") print('Translated End,The output text: %s' % chineseText)在IDLEz中運行後:
我需要一個python網路爬蟲的索引,可以幫忙做一個
1. “網路爬蟲的索引” 啥意思?
2.關於爬蟲,我早就幫你們寫好了教程了。
文章內容太多,就不再貼了,全都在這裡:
如何用Python,C#等語言去實現抓取靜態網頁 類比登陸網站
裡面有所有的,原理,邏輯,範例程式碼,包括C#和Python的。
(此處不給貼地址,請自己用Google搜標題,即可找到文章地址)
老師讓使用python3,示範說明一條網路爬蟲的原理,初學者,
只有代碼,遠離自己找書看看吧.
貌似不能貼網址?
hi.baidu.com/...dd7953