標籤:nagios nrpe timeout
ESXi裡面的一台ubuntu因為物理機當機,然後也掛了,重啟後發現nagios有問題。
表現為:
監測的服務有Current Loas、DRBD、Disk_Space、PING、SSH。 而有問題的就只有PING、SSH。
在伺服器端測試如下:
[email protected]:/usr/local/nagios/libexec# ./check_nrpe -H 192.168.100.5 -c check_ping CHECK_NRPE: Socket timeout after 10 seconds.
SSH也是同樣的錯誤。
網上搜尋無非是加上 -t 加上時間。 這樣試過還是一樣。
然後查日誌,查nrpe.cfg(有兩台一樣的虛擬機器,配置也一樣,但沒問題。)查iptables(設定了相關規則,但並沒有針伺服器的)
然後在用戶端也測試一下:
[email protected]:/usr/local/nagios/libexec# ./check_nrpe -H 127.0.0.1 -c check_ping -t 20CHECK_NRPE: Socket timeout after 20 seconds.[email protected]:/usr/local/nagios/libexec# ./check_nrpe -H 127.0.0.1 -c check_sshCHECK_NRPE: Socket timeout after 10 seconds.[email protected]:/usr/local/nagios/libexec# ./check_ping -H 127.0.0.1 -w 3000.0,80% -c 5000.0,100% -p 5 PING CRITICAL - Packet loss = 100%|rta=5000.000000ms;3000.000000;5000.000000;0.000000 pl=100%;80;100;0
最後試試 ip a(習慣就這個) 然後看了下似乎和另一台不一樣,具體如下:
[email protected]:/usr/local/nagios/libexec# ip a1: lo: <LOOPBACK> mtu 16436 qdisc noqueue state DOWN link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 inet 127.0.0.1/8 scope host lo2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000 link/ether 00:50:56:95:5c:40 brd ff:ff:ff:ff:ff:ff inet 192.168.100.5/24 brd 192.168.100.255 scope global eth0 inet6 fe80::250:56ff:fe95:5c40/64 scope link valid_lft forever preferred_lft forever
lo口居然是down的狀態,我去。
我看了 /etc/network/interfaces 是 auto 的
重啟一下居然是down。暈了。
down的原因目前沒找到。日誌裡面也沒有相關的記錄。
然後設定為 up 問題搞定!
Nagios NRPE逾時問題