使用PythonRegex提取搜尋結果中的網站

來源:互聯網
上載者:User

最近要把Google所搜的結果中,所以的網站地址匯出。於是便使用Python中Regex來提取所搜得到的結果。

這其中涉及幾個需要解決的問題:

1、擷取搜尋的結果文本

為了獲得更多的地址,我使用了Google的進階搜尋功能,每個頁面顯示100條結果。

獲得顯示的結果後,可以查看源碼,並保持成文字檔就有了搜尋的結果文本

  

2、分析如何提取網站資訊

首先需要分析擷取的頁面,查看以怎樣的方式可以提取出網站資訊。

我使用IE8內建的開發工具(按F12就會彈出來)中的探查器功能查看自己要關心的內容有什麼特殊的格式

從可以看出我需要的網站在標籤<cite></cite>中,所以我使用Regex提取這其中的文本是否就可以呢?

3、編寫Regex來擷取網站地址

接下來的就是寫運算式了,我使用Python3.2編寫的,方便好用(~_~)

代碼如下,先把搜尋結果頁面保持到e:/t3.txt中,在執行如下代碼

import re

p = re.compile(r'<cite>([^<>\/].+?)</cite>')

f = open("e:/t3.txt", encoding='utf-8')

content = f.read()

print ("\n".join(p.findall(content)))

運行如下:

對照一下,果然把所有的網站地址給擷取到了。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.