公司採用nagios監控,通過nagios client將需要的資料收集並傳給nagios伺服器,目前所遇到的問題是我們公司部分機器是再其他機房,例如:東航,是不允許安裝用戶端並訪問外網的,為了更好的檢測伺服器狀態,遇到問題可以發簡訊和郵件的方式通知營運人員進行處理,與開發人員協商開放了簡訊、郵件兩個介面,通過指令碼的方式將監控伺服器狀態,遇到故障後通過指令碼方式發送警示。
目標分析:
所需的監控資源:
1、登陸使用者數
2、CPU負載
3、服務探測
4、硬碟空間根分區、應用分區、備份分區)
5、記憶體資源
簡訊介面、郵件介面
格式上傳至附件
指令碼:
#!/bin/bash#監控使用者登入Usermonitor () { LoginUser=`uptime | awk '{print $6}'` if [ $LoginUser -ge 2 ] then Critical="當前系統登入使用者人數超過1人,具體人數為:$LoginUser 個,請確認操作者人數。" status=0 else echo "loginuser ok" status=1 fi}#監控記憶體MemMonitor () { MemTotal=`free -m | grep Mem | awk -F: '{print $2}' | awk '{print $1}'` MemFree=`free -m | grep cache | awk NR==2 | awk '{print $4}'` MemFreeB=`awk 'BEGIN{printf "%.2f%\n",'$MemFree/$MemTotal\*100'}'` MemFreeS=`awk 'BEGIN{printf "%.f",'$MemFree/$MemTotal\*100'}'` if [ $MemFreeS -lt 10 ] then Critical="系統可用記憶體小於10%,實際可用記憶體為:$MemFreeB ,請處理。" status=0 elif [ $MemFreeS -lt 20 ] then Warning="系統可用記憶體小於20%,實際可用記憶體為:$MemFreeB ,請查看。" WarningT="記憶體警示" status=1 else echo "Mem OK" status=2 fi}#監控分區空間大小DiskMonitorG () { #根分區 DiskGB=`df -h | awk NR==2 | awk '{print $5}'` DiskGS=`df -h | awk NR==2 | awk '{print $5}' | awk -F% '{print $1}'` if [ $DiskGS -gt 90 ] then Critical="根分區使用率超過90%,實際已使用 $DiskGB ,請處理。" status=0 elif [ $DiskGS -gt 80 -a $DiskGS -lt 90 ] then Warning="根分區使用率超過80%,實際已使用 $DiskGB , 請查看。" WarningT="根分區警示" status=1 else echo "DiskGB Ok" status=2 fi }DiskMonitorA () { #應用分區 ApplyB=`df -h | awk NR==4 | awk '{print $5}'` ApplyS=`df -h | awk NR==4 | awk '{print $5}' | awk -F% '{print $1}'` if [ $ApplyS -gt 90 ] then Critical="應用分區使用率超過90%,實際已使用 $ApplyB ,請處理." status=0 elif [ $ApplyS -gt 80 -a $ApplyS -lt 90 ] then Warning="應用分區使用率超過80%,實際已使用 $ApplyB ,請查看。" WarningT="應用分區警示" status=1 else echo "Apply ok" status=2 fi}#監控CPU負載CPULoad () { CPULoad1=`uptime | awk '{print $10}' | awk -F. '{print $1}'` CPULoad2=`uptime` if [ $CPULoad1 -gt 5 ] then Critical="CPU負載過高,請即使處理。 $CPULoad2 " status=0 elif [ $CPULoad1 -gt 3 -a $CPULoad1 -lt 5 ] then Warning="CPU負載警告, $Warning " WarningT="CPU負載警示" status=1 else echo "CPU OK" status=2 fi}#監控服務狀態ServerMonitor () {#服務狀態監控 timeout=10 makfails=2 fails=0 success=0 while true do /usr/bin/wget --timeout=$timeout --tries=1 http://192.168.20.84/ -q -O /dev/null if [ $? -ne 0 ] then let fails=fails+1 success=0 else fails=0 let success=1 fi if [ $success -ge 1 ] then exit 0 fi if [ $fails -ge 1 ] then Critical="TMS應用服務出現故障,請緊急處理!" echo $Critical | mutt -s "服務down" hao.lulu@chinaebi.com exit -1 fi done}#發送警示簡訊、警示郵件for n in Usermonitor MemMonitor DiskMonitorG DiskMonitorA CPULoad ServerMonitor do $n if [ $status -eq 0 ] then curl "http://172.20.36.118/app/tms.do?tranCode=TM0311&content=$Critical" elif [ $status -eq 1 ] then curl "http://172.20.36.118/app/tms.do?tranCode=TM0310&title=$WarningT&content=Warning" else echo "ok" fidone
本文出自 “折翅飛翔的小鳥” 部落格,請務必保留此出處http://haolulu.blog.51cto.com/3164472/1244267