在大的互連網公司幹技術的基本都會碰到測試、預發布、線上這種多套環境的,來實現測試和線上正式環境的隔離,這種情況下,就難免會碰到秀逗了把測試的連結發布到線上的情況,一般這種都是通過一些測試的檢查工具來檢查連結來規避風險的。前兩天跟了一個問題也是這個情況,開發疏忽把日常url發布到線上了。但是測試那邊沒有自動化的監控工具,導致沒有及時發現,由於最近正好在看python,後來處理完回家就想用python做個簡單的監控。
大略思路是:用python寫一個指令碼來分析網頁裡的所有url,看是否包含日常的連結,然後把指令碼放到crontab裡跑定時任務,10分鐘跑一次檢查。如果發現非法連結,就發警示郵件給相關人員。指令碼代碼100行左右,比較好理解,貼上代碼。
本來想用beautifulsoup,不過考慮到安裝三方庫麻煩,所以還是用內建的sgmllib來,不需要關心庫。發郵件函數沒有實現,根據各自的smtp伺服器實現以下即可。
代碼如下:
#!/usr/bin/env python
#coding:UTF-8
import urllib2
from sgmllib import SGMLParser
import smtplib
import time
#from email.mime.text import MIMEText
#from bs4 import BeautifulSoup
#import re
class UrlParser(SGMLParser):
urls = []
def do_a(self,attrs):
'''''parse tag a'''
for name,value in attrs:
if name=='href':
self.urls.append(value)
else:
continue
def do_link(self,attrs):
'''''parse tag link'''
for name,value in attrs:
if name=='href':
self.urls.append(value);
else:
continue
def checkUrl(checkurl, isDetail):
'''''檢查checkurl對應的網頁源碼是否有非法url'''
parser = UrlParser()
page = urllib2.urlopen(checkurl)
content = page.read()
#content = unicode(content, "gb2312").encode("utf8")
parser.feed(content)
urls = parser.urls
dailyUrls = []
detailUrl = ""
for url in urls:
if 'daily' in url:
dailyUrls.append(url);
if not detailUrl and not isDetail and 'www.bc5u.com' in url:
detailUrl = url
page.close()
parser.close()
if isDetail:
return dailyUrls
else:
return dailyUrls,detailUrl
def sendMail():
'''''發送提醒郵件'''
pass
def log(content):
'''''記錄執行日誌'''
logFile = 'checkdailyurl.log'
f = open(logFile,'a')
f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'\n')
f.flush()
f.close()
def main():
'''''入口方法'''
#檢查ju
url = "www.bc5u.com"
dailyUrls,detailUrl=checkUrl(url, False)
if dailyUrls:
#檢查到daily連結,發送警示郵件
sendMail()
log('check: find daily url')
else:
#沒檢查到daily連結,不處理
log('check: not find daily url')
#檢查judetail
dailyUrls=checkUrl(detailUrl, True)
if dailyUrls:
#檢查到daily連結,發送警示郵件
log('check: find daily url')
sendMail()
else:
#沒檢查到daily連結,不處理
log('check: not find daily url')
if __name__ == '__main__':
main()