监控平台——Nagios

monicazhang

来自：网络

安装完成后的一些情况准备工作开始安装Nagios 创建帐号下载Nagios和插件编译安装Nagios 定制配置配置web接口编译安装Nagios插件启动Nagios 登录Nagios 1、安装硬件传感器监控软件sensors 2、运行sensors-detect进行传感器检测 3、运行sensors看是否能读取数据，如下像下面这样表示正常：4、#vi /usr/local/nagios/libexec/check_cputemp 5、赋予上述脚本执行权限：6、配置nrpe.cfg，添加如下一行：7、在Nagios服务器配置服务：1.DBI的安装 2.DBD的安装 3.编译安装NDOUtils 4.为NDOUtils创建数据库 5.编辑配置文件 6.启动ndo2db 7.重启动nagios 8、遇到问题：1、准备NRPE for HP-UX软件和用户：1.1 准备软件 1.2 建立NRPE用户：2、在HP-UX上安装NRPE：3、配置nrpe:3.1 配置nrpe主配置文件/opt/nrpe/etc/nrpe.conf:3.2 将NRPE配置为inetd管理的进程：4、编写内存监控脚本：5、启动NRPE：5.1 方法一：5.2 方法二：6、测试NRPE：6.1 在被监控服务器上查看服务是否正常启动：6.2 在Nagios服务器上测试联系NRPE：监控效果（点击图片放大查看）：一、调优：1.1 调整监控的灵敏度：1.2 服务和主机依赖：服务依赖定义语法：主机间依赖定义：二、使用pnpnagios实现对性能数据绘图：三、Nagios的权限和通知功能加强：3.1 使用LDAP认证：3.1.1 在域控制器上特定OU下建立具有Nagios权限的用户组：3.1.2 配置Nagios通过LDAP认证：3.2 定义联系人：3.2.1 定义联系人：3.2.2 定义联系人组：3.2.3 使用服务模板和主机模板的方式实现权限管理：编辑主机模板文件：hosttemplates.cfg 编辑服务模板文件：servicetemplates.cfg 3.3 使用Mail和短信双重报警：
安装完成后的一些情况

Nagios以及插件将安装在/usr/local/nagios目录
Nagios会配置监控本地机器几个方面（CPU负载，磁盘使用率等） nagios安装
Nagios可以通过http://nagios_ip/nagios/访问

准备工作

需要以root身份安装Nagios。
确保在CentOS安装了下面几个软件包：

Apache
PHP
GCC compiler
GD development libraries

你可以通过yum完成这些安装工作：

#yum install httpd httpd-devel php openssl-devel
#yum install gcc glibc glibc-common
#yum install gd gd-devel

开始安装Nagios 创建帐号

创建 nagios用户并创建nagcmd用户组以执行来自web接口的命令，并添加nagios和apache用户到此用户组。

#groupadd nagcmd             /*建立组nagcmd*/
#usermod –G nagcmd apache             /*添加用户apache到组nagcmd*/
#useradd -G nagcmd nagios             /*新建用户nagios并添加到组nagcmd*/
#passwd nagios             /*修改nagios密码*/

下载Nagios和插件

创建下载存储目录:

#mkdir ~/downloads
#cd ~/downloads

从网站http://www. /download/下载Nagios（英语不好的同学初次安装建议安装中文版）以及插件。

#wget projects/ ... .3.tar.bz2/download ##中文版
#wget p ... ugins-1.4.16.tar.gz

编译安装Nagios

#tar -jxvf nagios-cn-3.2.3.tar.bz2
#cd nagios-cn-3.2.3

运行Nagios配置脚本，并把nagcmd更改为之前所创建的组。

#./configure --prefix=/usr/local/nagios --with-nagios-user=nagios --with-nagios-group=nagios --with-command-group=nagcmd

编译源码：

#make all

安装二进制，init脚本，sample配置文件和设置外部命令目录权限。

#make install
#make install-init
#make install-config
#make install-commandmode

不要现在执行nagios，下面还有一些需要配置。

定制配置

样式配置文件已经安装在/usr/local/nagios/etc目录，修改联系人为下一步中的管理员并更改email地址。

#vi /usr/local/nagios/etc/objects/contacts.cfg

配置web接口

安装Nagios Web配置文件在Apache的conf.d目录:

#make install-webconf

为登录Nagios Web接口创建nagiosadmin帐号。记住下面你设置的密码，之后登录用到。

#htpasswd -c /usr/local/nagios/etc/htpasswd.users barlow
##我这里使用我的英文名barlow为默认管理员

重启Apache使新配置生效。

#service httpd restart

编译安装Nagios插件

#cd ~/downloads
#tar xzf nagios-plugins-1.4.16.tar.gz
#cd nagios-plugins-1.4.16
#./configure --with-nagios-user=nagios --with-nagios-group=nagios
#make
#make install

启动Nagios

设置开机启动：

#chkconfig --add nagios
#chkconfig nagios on
#chkconfig httpd on
#service httpd restart
#service nagios restart

测试配置文件是否有错误：

#/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

这个命令后面经常会用到，但这么长的命令很难输入也难记，因此我将其添加为别名，方法如下：

#vi /etc/bashrc

最最后添加如下一行：

alias nagc='/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg' ##具体如下图

则以后所有用户输入nagc命令就表示执行/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

执行上述命令后如果没有报错（如下图）：

立即启动Nagios

#service nagios start

登录Nagios

安装已经完成，你可以使用barlow用户以及之前设置的密码通过http://Nagios_IP/nagios/地址登录Nagios后台。

登录后界面如下：

左边菜单栏的顶部有中英文的说明书，根据说明，能完成绝大部分监控配置。

可能存在的问题点：

现象：无法访问
解决办法：查看防火墙配置是否开放了80端口，
现象：只能打开主页，其他菜单点击后显示“Internal Server Error”错误提示
解决办法：关闭SELinux
监控监控linux本地主机时，我们可以直接更改配置文件进行监控，如果需要监控的主机与nagios不在同一机器上，即监控远程linux主机时，我们需要借助NRPE插件实现。
nrpe工作原理图：
[url=uploads/img/201505/31124337_or12.png][/url]
远程主机的操作
安装支持：
# yum -y install openssl openssl-devel
下载Nagios Plugins和NRPE
#cd /tmp
#wget p ... 13/nrpe-2.13.tar.gz
#wget p ... ugins-1.4.16.tar.gz
创建nagios帐号
# useradd nagios
# passwd nagios
安装nagios-plugin
# cd /tmp
# tar xvfz nagios-plugins-1.4.16.tar.gz
# cd nagios-plugins-1.4.16
# export LDFLAGS=-ldl
# ./configure --with-nagios-user=nagios --with-nagios-group=nagios --enable-redhat-pthread-workaround
# make
# make install
#chown nagios.nagios /usr/local/nagios
#chown -R nagios.nagios /usr/local/nagios/libexec/
安装NRPE
# cd /tmp
# tar xvfz nrpe-2.13.tar.gz
# cd nrpe-2.13
# ./configure
# make all
# make install-plugin
# make install-daemon
# make install-daemon-config
# yum install xinetd
# make install-xinetd
配置NRPE以守护进程运行
1、更改/etc/xinetd.d/nrpe文件，设置允许nagios服务器连接,如nagios服务器的ip为192.168.1.2:
only_from    = 127.0.0.1 192.168.1.2
2、在/etc/services结尾增加：
nrpe 5666/tcp # NRPE
3、启动xinetd
# service xinetd restart
4、验证nrpe是否监听
# netstat -at | grep nrpe
5、测试nrpe是否正常运行
# /usr/local/nagios/libexec/check_nrpe -H localhost
NRPE v2.13
6、更改 /usr/local/nagios/etc/nrpe.cfg
nrpe.cfg文件里包含需要监控远程主机的命令，如下面是我的配置：
#用户登录数
command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10
#CPU负载
command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20
#磁盘空间
command[check_disk]=/usr/local/nagios/libexec/check_disk -w  20 -c 10 -p /dev/sda
#僵尸进程数
command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z
#进程总数
command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200
#物理内存
command[check_mem]=/usr/local/nagios/libexec/check_mem -H $HOSTADDRESS$
#脚本内容见下文
物理内存检查脚本/usr/local/nagios/libexec/check_mem：
#!/bin/bash
# check memory script
# Total memory
# by Barlow
# 2014-06-13
help() {
echo "Usage: `basename $0` -w <%> -c <%>"
echo "-w is WARNING % of used mem;-c is CRITICAL % of used mem!"
exit 3
}
TOTAL=`free -m | head -2 |tail -1 |gawk '{print $2}'`
# check memory
FREE=`free -m | head -3 |tail -1 |gawk '{print $4}'`
USED=`free -m | head -3 |tail -1 |gawk '{print $3}'`
# to calculate free percent
# use the expression free * 100 / total
FREETMP=`expr $FREE \* 100`
USEDTMP=`expr $USED \* 100`
FREE_PERCENT=`expr $FREETMP / $TOTAL`
USED_PERCENT=`expr $USEDTMP / $TOTAL`
if [ $# -le 3 ];then
help
elif ! [ $1 == "-w" ]&>/dev/null;then
help
elif ! [ $3 == "-c" ]&>/dev/null;then
help
fi
WARNIFNUM() {
if ! [ "$WARN" == "$OPTARG" ];then
help
fi
}
CRITIFNUM() {
if ! [ "$CRIT" == "$OPTARG" ];then
help
fi
}
while getopts "w:c:h" OPT; do
case $OPT in
"w")
WARNTMP=$OPTARG
WARN=$(echo $WARNTMP |bc 2>/dev/null)
if ! [ "$WARN" == "$WARNTMP" ];then
help
fi
;;
"c")
CRITTMP=$OPTARG
CRIT=$(echo $CRITTMP |bc 2>/dev/null)
if ! [ "$CRIT" == "$CRITTMP" ];then
help
fi
;;
"h")
help;;
esac
done
CRIT_LEVEL=`expr $TOTAL \* $CRIT \/ 100`
WARN_LEVEL=`expr $TOTAL \* $WARN \/ 100`
if [ $USED_PERCENT -gt $CRIT ];then
echo "CRITICAL! Used Memory $USED MB ($USED_PERCENT%,Total=$TOTAL MB) | 'USED MEM'=${USED}MB;$WARN_LEVEL;$CRIT_LEVEL;0;$TOTAL"
exit 2
fi
if [ $USED_PERCENT -gt $WARN ];then
echo "WARNING! Used Memory $USED MB ($USED_PERCENT%,Total=$TOTAL MB) | 'USED MEM'=${USED}MB;$WARN_LEVEL;$CRIT_LEVEL;0;$TOTAL"
exit 1
else
echo "OK! Used Memory $USED MB ($USED_PERCENT%,Total=$TOTAL MB) | 'USED MEM'=${USED}MB;$WARN_LEVEL;$CRIT_LEVEL;0;$TOTAL"
exit 0
fi
nagios服务器的操作
首先安装nagios,参考：server/management/186.html
下载安装NRPE
# cd /tmp
# wget p ... 13/nrpe-2.13.tar.gz
# tar xvfz nrpe-2.13.tar.gz
# cd nrpe-2.13
# ./configure
# make all
# make install-plugin
测试是否正常:
# /usr/local/nagios/libexec/check_nrpe -H 192.168.1.3
NRPE v2.13
为监控远程主机定义host和service
1、定义check_nrpe命令
在文件/usr/local/nagios/etc/objects/commands.cfg后面增加：
# 'check_nrpe' command definition
define command{
command_name check_nrpe
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -t 30 -c $ARG1$
}
2、创建/usr/local/nagios/etc/objects/host.cfg （需提前在nagios.cfg中定义）
host定义示例：
define host{
use linux-server
host_name remotehost
address 192.168.1.3
}
3、创建服务：vi /usr/local/nagios/etc/objects/services.cfg  （需提前在nagios.cfg中定义）
如定义监控远程主机磁盘空间示例（其他服务语法相同）：
define service{
use generic-service
host_name  remotehost
service_description sda磁盘空间
check_command check_nrpe!check_disk
}
之后重载nagios配置文件使其生效
# service nagios reload

一、交换机snmp配置,下面是H3C 5500系列的配置命令：

snmp-agent enable
snmp-agent community read public
snmp-agent sys-info version all
snmp-agent group v1 public
snmp-agent group v2c public
snmp-agent group v3 public
snmp-agent target-host trap address udp-domain <nagios服务器IP> params securityname public

二、安装和配置mrtg
1、安装MRTG，使用yum默认安装即可：

[root@nagios ~]#yum -y install mrtg

2、创建配置文件，因为我只需要监控一台核心交换机，因此只创建一个，如果有多个交换机需要监控，则用下面同样的方法创建多个即可：

[root@nagios ~]#mkdir /usr/local/nagios/mrtg ##创建配置文件存放文件夹
[root@nagios ~]#cfgmaker -output=/usr/local/nagios/mrtg/mainswitch.cfg public@交换机IP

3、创建和配置存放流量图及html页面的文件夹，我就放到了nagios的网页文件下，如：

[root@nagios ~]# mkdir /usr/local/nagios/share/mrtg
[root@nagios ~]# vi /usr/local/nagios/mrtg/mainswitch.cfg
找到“WorkDir：”将后面路径替换为上一步创建的路径，注意，如果前面被#注释掉，则需要取消#，及完成后如下：
WorkDir: /usr/local/nagios/share/mrtg

4、生成流量图：

[root@nagios ~]# env LANG=C /usr/bin/mrtg /usr/local/nagios/mrtg/mainswitch.cfg

此步可能会有警告提示，不管他，多执行几次，直到没有警告为止。

使用任务计划配置每5分钟生成一次：

[root@nagios ~]#vi /etc/crontab

添加如下一行：

*/5 * * * * root /usr/bin/env LANG=C /usr/bin/mrtg /usr/local/nagios/mrtg/mainswitch.cfg

使用service crond restart 重新启动计划任务。

生成汇总首页：

[root@nagios ~]# indexmaker -output=/usr/local/nagios/share/mrtg/index.html -title="MainSwitch Traffic Monitoring" /usr/local/nagios/mrtg/mainswitch.cfg

此时，就可以使用浏览器进行访问MRTG生产的流量图了，路径为：http://服务器IP/nagios/mrtg/ 开源监控软件

四、配置Nagios读取mrtg监控的流量信息：
在nagios最新版中，已经有了check_mrtg和check_mrtgtraf插件,并且相关命令也已经配置好，可以直接使用，具体方法如下：

1、定义交换机和监控服务：

编辑vi /usr/local/nagios/etc/objects/switch.cfg，可以讲原有交换机的定义注释，也可以在原有配置上修改，主要内容如下：
定义host：

define host{
use          generic-switch
host_name    MainSwitch
alias          MainSwitch
address       替换为交换机IP地址
hostgroups    switches
}

定义server：

define service{
use                   generic-service
host_name             MainSwitch
service_description    端口1流量
check_command          check_local_mrtgtraf!/usr/local/nagios/share/mrtg/替换为交换机IP_1.log!AVG!1000000,1000000!5000000,5000000!10
}

注意：上面交换机IP后面的数字1表示交换机端口1。
要监控更多的端口同同样的方法定义更多的服务即可。

重启nagios服务，刷新nagios监控页面，等两分钟后即可看到流量信息了。 [url=uploads/img/201505/31124406_SH8N.png]

[/url]如果要查看更信息的端口流量图，则可以访问MRTG页面进行查看，路径为:http://nagiso服务器IP/nagios/mrtg/

我的机房没有温度报警装置，我用此方法实现对机房温度的掌控，如果只有一台报警，则可认为单机故障，如果几台同时报警，则可认为机房空调出现了问题。具体实现方法如下：

环境：被监控机：CentOS 6.x

1、安装硬件传感器监控软件sensors

#yum install lm_sensors*

2、运行sensors-detect进行传感器检测

#sensors-detect ##一路回车即可，此步我在虚拟机下报错，但在物理机上没有问题

3、运行sensors看是否能读取数据，如下像下面这样表示正常：

[root@rd02 ~]# sensors
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +35.0°C (high = +85.0°C, crit = +95.0°C)
Core 1: +34.0°C (high = +85.0°C, crit = +95.0°C)
Core 9: +36.0°C (high = +85.0°C, crit = +95.0°C)
Core 10: +31.0°C (high = +85.0°C, crit = +95.0°C)

4、#vi /usr/local/nagios/libexec/check_cputemp

#!/bin/sh
#########check_cputemp###########
#date : May 2013
#Licence GPLv2
#by Barlow
#/usr/local/nagios/libexec/check_cputemp
#you can use NRPE to define service in nagios
#check_nrpe!check_cputemp
# Plugin return statements
STATE_OK=0
STATE_WARNING=1
STATE_CRITICAL=2
STATE_UNKNOWN=3
print_help_msg(){
$Echo "Usage: $0 -h to get help."
}
print_full_help_msg(){
$Echo "Usage:"
$Echo "$0 [ -v ] -m sensors -w cpuT -c cpuT"
$Echo "Sepicify the method to use the temperature data sensors."
$Echo "And the corresponding Critical value must greater than Warning value."
$Echo "Example:"
$Echo "${0} -m sensors -w 40 -c 50"
}
print_err_msg(){
$Echo "Error."
print_full_help_msg
}
to_debug(){
if [ "$Debug" = "true" ]; then
$Echo "$*" >> /var/log/check_sys_temperature.log.$$ 2>&1
fi
}
unset LANG
Echo="echo -e"
if [ $# -lt 1 ]; then
print_help_msg
exit 3
else
while getopts :vhm:w:c: OPTION
do
case $OPTION
in
v)
#$Echo "Verbose mode."
Debug=true
;;
m)
method=$OPTARG
;;
w)
WARNING=$OPTARG
;;
c)
CRITICAL=$OPTARG ;;
h)
print_full_help_msg
exit 3
;;
?)
$Echo "Error: Illegal Option."
print_help_msg
exit 3
;;
esac
done
if [ "$method" = "sensors" ]; then
use_sensors="true"
to_debug use_sensors
else
$Echo "Error. Must to sepcify the method to use sensors."
print_full_help_msg
exit 3
fi
to_debug All Values are \" Warning: "$WARNING" and Critical: "$CRITICAL" \".
fi
#########lm_sensors##################
if [ "$use_sensors" = "true" ]; then
sensorsCheckOut=`which sensors 2>&1`
if [ $? -ne 0 ];then
echo $sensorsCheckOut
echo Maybe you need to check your sensors.
exit 3
fi
to_debug Use $sensorsCheckOut to check system temperature
TEMP1=`sensors | head -3 | tail -1 | gawk '{print $3}' | grep -o [0-9][0-9]`
TEMP2=`sensors | head -4 | tail -1 | gawk '{print $3}' | grep -o [0-9][0-9]`
TEMP3=`sensors | head -5 | tail -1 | gawk '{print $3}' | grep -o [0-9][0-9]`
TEMP4=`sensors | head -6 | tail -1 | gawk '{print $3}' | grep -o [0-9][0-9]`
##温度的取数根据你cpu的核数确定，我的是四核，所以取TEMP1-4个CPU温度数并计算平均值
SUM=$(( $TEMP1 + $TEMP2 + $TEMP3 + $TEMP4 ))
TEMP=$(($SUM/4))
if [ -z "$TEMP" ] ; then
$Echo "No Data been get here. Please confirm your ARGS and re-check it with Verbose mode, then to check the log."
exit 3
fi
to_debug temperature data is $TEMP
else
$Echo "Error. Must to sepcify the method to use sensors"
print_full_help_msg
exit 3
fi
######### Comparaison with the warnings and criticals thresholds given by user############
CPU_TEMP=$TEMP
#if [ "$WARNING" != "0" ] || [ "$CRITICAL" != "0" ]; then
if [ "$CPU_TEMP" -gt "$CRITICAL" ] && [ "$CRITICAL" != "0" ]; then nagios配置
STATE="$STATE_CRITICAL"
STATE_MESSAGE="CRITICAL"
to_debug $STATE , Message is $STATE_MESSAGE
elif [ "$CPU_TEMP" -gt "$WARNING" ] && [ "$WARNING" != "0" ]; then
STATE="$STATE_WARNING"
STATE_MESSAGE="WARNING"
to_debug $STATE , Message is $STATE_MESSAGE
else
STATE="$STATE_OK"
STATE_MESSAGE="OK"
to_debug $STATE , Message is $STATE_MESSAGE
fi
##返回值中注意要包含性能数据，即采用|分隔的后半部数据，且数据单位不能包含中文，否则使用PNP等绘图软件无法正常绘图。
echo "The TEMPERATURE "$STATE_MESSAGE" "-" The CPU's Temperature is "$CPU_TEMP" ℃ ! | 温度=`echo $CPU_TEMP`Celsius;$WARNING;$CRITICAL"
exit $STATE

5、赋予上述脚本执行权限：

#chmod +x /usr/local/nagios/libexec/check_cputemp

6、配置nrpe.cfg，添加如下一行：

command[check_cputemp]=/usr/local/nagios/libexec/check_cputemp -m sensors -w 38 -c 45

-w 表示警告值，-c表示关键（紧急）值，自行根据实际情况调整
注意：以上六步均在被监控机上完成。

7、在Nagios服务器配置服务：

define service{
use generic-service,svr-pnp
host_name
service_description CPU Temperature
check_command check_nrpe!check_cputemp
}

保存后重启nagios服务即可

一、Nagios监控配置的常规说明：

1.1. 监控步骤：

被监控端安装代理（linux为nrpe，windows为NSClient）à配置被监控端监控脚本à主机定义（服务器端）à定义命令（服务器端，普通监控默认已定义好，可跳过此步）à定义服务（服务器端）à其他定义（此步可省略，包含：联系人、主机组、服务器组、服务组等）

1.2. Nagios监控的四种状态：

Nagios的状态有四种，根据返回值区分：

返回 0 ，正常

返回 1 ，警告

返回 2 ，紧急

返回 3 ，未知

因此，不管是linux还是windows，在自定义脚本是，只要设置好exit后跟的返回值即可实现Nagios的通知提醒。

二、 Windows代理NSClient++的安装

下载最新的NSClient++ 0.40安装，填入Nagios服务器IP，密保保存为空，并勾选支持的前三项插件，如下图：

[url=uploads/img/201505/31124450_P6Ku.png]

[/url]

三、 利用默认配置实现监控硬盘空间、CPU负载、内存等信息：

3.1 被监控端（Windows服务器）配置自带防火墙例外或者关闭自带防火墙，开放TCP 5666和TCP 12489端口。

3.2 Nagios服务器端：

3.2.1. 配置/usr/local/nagios/etc/nagios.cfg，将如下一行前面的注释取消：

cfg_file=/usr/local/nagios/etc/objects/windows.cfg

3.2.2. 定义主机，编辑/usr/local/nagios/etc/objects/windows.cfg，添加主机定义：
define host{

use          windows-server ;使用主机模板
host_name    主机名          ;主机名
alias       主机别名       ;主机别名
address       192.168.0.8          ;IP地址
}

3.2.3. 定义服务，编辑/usr/local/nagios/etc/objects/windows.cfg，添加服务定义：

定义监控CPU负责的服务：

define service{

use generic-service ;服务模板

host_name 主机名 ;上面定义的主机名

check_interval 18

service_description CPU 负载 ;服务名称

check_command check_nt!CPULOAD!-l 5,80,90

}

说明：检查5分钟平均值，报警值80%，警告值90%。

定义监控内存的服务：

define service{

use generic-service,srv-pnp

host_name 主机名

check_interval 18

service_description Memory 含虚拟内存

check_command check_nt!MEMUSE!-w 78 -c 82

}

说明：内存报警值78%，警告值82%（该数据包含虚拟内存）监控软件

定义监控磁盘空间的服务：

define service{

use generic-service,srv-pnp

host_name 主机名

check_interval 30

service_description Drive Space D盘

check_command check_nt!USEDDISKSPACE!-l d -w 80 -c 90

}

说明：-l后接盘符，报警值80%，警告值90%。

定义监控windows服务运行状态：

define service{

use generic-service

host_name 主机名

service_description 服务名

check_command check_nt!SERVICESTATE!-d SHOWALL -l 服务名

}

说明：-l后接要检查的服务名称；contacts为定义的通知联系人。

其他更多的用法可以根据windows.cfg文件的预定义服务进行举一反三。

3.2.4. 使用命令：service nagios restart重启查看状态，正常的话如下图：

[url=uploads/img/201505/31124450_eLhQ.png]

[/url]

四、 自定义脚本监控(NRPE)：

4.1 客户端脚本编写：

脚本的编写可以使用批处理、powershell脚本或vbs等，只要能返回状态信息和返回值（见文章开头第一段说明）。

例如如使用批处理，可以使用echo命令返回状态信息；使用exit跟数字0、1、2、3返回状态值。如下面的一段批处理脚本可以实现对进程状态进行监控：

@echo off

:: 监控进程是否运行

::%1表示使用中的第一个参数，即进程名称

tasklist |find "%1" >NUL

IF ERRORLEVEL 1 GOTO err

IF ERRORLEVEL 0 GOTO ok

:err

echo CRITICAL!Process %1 is not exist!

exit 2

::返回值为2，表示警告

: ok

echo OK!Process %1 is exist!

exit 0

::返回值为0，表示正常

将上述命令作为批处理保存在C:\Program Files\NSClient++\scripts路径下如check_run.bat，注意，在返回的状态信息中尽量不要用中文。
4.2 客户端脚本命令配置：

编辑C:\Program Files\NSClient++\nsclient.ini，找到[/settings/external scripts/scripts]一行，在下面加入如下内容：

Command_alias=scripts\check_run.bat Process_Name.exe

注意：等号前面的别名为服务器端调用的命令，等号后面接具体的脚本，脚本后面跟参数进程名称，该参数会被脚本使用%1变量进行调用。如我要监控【视频监控主机】的视频录像程序是否启动，可替换为check_manager=scripts\check_run.bat VideoManager.exe
4.3 服务器端服务配置()：

定义服务后：

define service{

use generic-service

host_name Monitor

service_description 管理平台

check_command check_nrpe!check_manager

}

4.4 重启Nagios服务：service nagios restart

[url=uploads/img/201505/31124450_Oruo.png]

[/url]

通过上述默认支持的监控项目和自定义脚本，基本能实现Windows所有需要的监控（对部分服务的详细监控需要很复杂的脚本才能实现）。

1.DBI的安装

# wget modules/by-module/DBI/DBI-1.625.tar.gz
# tar zxvf DBI-1.625.tar.gz
# cd DBI-1.625
# perl Makefile.PL
# make
# make test
# make install

2.DBD的安装

# wget modules/by-module/DBD/DBD-mysql-4.023.tar.gz
# tar -zxvf DBD-mysql-4.023.tar.gz
# cd DBD-mysql-4.023
# perl Makefile.PL --mysql_config=/usr/local/mysql/bin/mysql_config --libs=-L/usr/local/mysql/lib-static -lmysqlclient
# make
# make install

3.编译安装NDOUtils

# tar zxf ndoutils-1.5.2.tar.gz
# cd ndoutils-1.5.2
# ./configure --prefix=/usr/local/nagios --enable-mysql --disable-pgsql
# cp ./src/ndomod-3x.o /usr/local/nagios/bin
# cp ./src/ndo2db-3x /usr/local/nagios/bin
# cp ./src/log2ndo /usr/local/nagios/bin
# cp ./src/file2sock /usr/local/nagios/bin
# chown nagios:nagios /usr/local/nagios/bin/*
# cp ./config/ndo* /usr/local/nagios/etc/
# chown nagios:nagios /usr/local/nagios/etc/*

4.为NDOUtils创建数据库

# mysql -uroot -p
mysql> create database nagios;
mysql> GRANT SELECT,INSERT,UPDATE,DELETE ON nagios.* TO nagios@localhost IDENTIFIED BY '123456';
mysql> flush privileges;
mysql> \q
生成ndoutils所需要的数据库
# cd db
# ./installdb -u n root -p 123456 -h localhost -d nagios
也可这样：# /opt/mysql/bin/mysql -u root -p -D nagios -h localhost < ./db/mysql.sql

5.编辑配置文件

# vi /usr/local/nagios/etc/ndo2db.cfg
db_user=nagios
db_pass=123456
# vi /usr/local/nagios/etc/nagios.cfg
# 复制下面内容粘贴到#broker_module＝...下面。
broker_module=/usr/local/nagios/bin/ndomod-3x.o config_file=/usr/local/nagios/etc/ndomod.cfg
此外，请确保您的/usr/local/nagios/etc/nagios.cfg中有如下行出现，否则，请自行添加：
event_broker_options=-1 //为Nagios开启event broker

6.启动ndo2db

# /usr/local/nagios/bin/ndo2db-3x -c /usr/local/nagios/etc/ndo2db.cfg
# echo '/usr/local/nagios/bin/ndo2db-3x -c /usr/local/nagios/etc/ndo2db.cfg' >> /etc/rc.local

7.重启动nagios

# /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
# service nagios restart

检查安装

# tail -20 /usr/local/nagios/var/nagios.log

8、遇到问题：

1.执行 # /usr/local/nagios/bin/ndo2db-3x -c /usr/local/nagios/etc/ndo2db.cfg
提示错误：Could not bind socket: Address already in use
解决：ps aux|grep ndo2db #没有
查看套接字文件是否存在,删除之

ll /usr/local/nagios/var/ndo.sock
rm /usr/local/nagios/var/ndo.sock

2.#ndo2db数据不能导入到数据库
原因:编译时没有LDFLAGS=-L/opt/mysql/lib
解决:重新编译ndoutils并加上 LDFLAGS=-L/opt/mysql/lib

# ./configure --prefix=/usr/local/nagios --enable-mysql --disable-pgsql LDFLAGS=-L/usr/local/mysql/lib --with-mysql-inc=/usr/local/mysql/include/mysql --with-mysql-lib=/usr/local/mysql/lib/mysql
# make
#再执行一下安装过程后，通过

1、准备NRPE for HP-UX软件和用户： 1.1 准备软件

可以到naghpux/下载

我实际使用中由于存在多台HP-UX，因此都是统一从Nagios服务器拷贝至被监控端的，命令如下：

# scp /var/ftp/nagios/NRPE-2.12.depot HP-UX_IP:/tmp

如果服务器很多，可以将上述命令写成脚本，实现批量推送。

1.2 建立NRPE用户：

groupadd -g 312 nrpe
useradd -g nrpe -u 312 nrpe
##指定GID和UID为312是因为后面的配置脚本中默认是这样指定的，我这里就不做修改 nagios实施

2、在HP-UX上安装NRPE：

2.1 HP-UX的软件包格式为depot，使用swinstall命令安装：

# swinstall -s /tmp/NRPE-2.12.depot

2.2 默认会弹出swinstall命令的使用提示，按任意键继续：

[url=uploads/img/201505/31124541_WRDN.jpg]

[/url]

2.3 使用空格键选中NRPE包，并使用tab键切换至菜单“Actions”，然后选择“Mark For Install”

[url=uploads/img/201505/31124541_skGL.jpg]

[/url]

按回车后，NRPE包前方会有Yes标记：

[url=uploads/img/201505/31124541_49NE.jpg]

[/url]

2.4 再次按tab键，切换到菜单“Actions”，然后选择“Install”进行安装：

[url=uploads/img/201505/31124541_0sEr.jpg]

[/url]

首先会对安装程序进行分析，通过后选中“OK”，进入正式安装：

[url=uploads/img/201505/31124541_8wUz.jpg]

[/url]

安装完成后，选中“done”，后按回车键，然后使用tab键选择“File”菜单的"exit"退出：

[url=uploads/img/201505/31124541_lfji.jpg]

[/url]

检查安装情况，默认nrpe会被安装到/opt/nrpe:

root@rzcs:/#ls /opt/nrpe
bin etc libexec

3、配置nrpe: 3.1 配置nrpe主配置文件/opt/nrpe/etc/nrpe.conf:

vi /opt/nrpe/etc/nrpe.cfg ##修改如下两行
server_address=127.0.0.1 Nagios_Server_IP
allowed_hosts=127.0.0.1 Nagios_Server_IP
##其他可以暂时保持默认，注意底部有监控命令的配置，如果是自写脚本，则需要配置：
……中间省略……
command[check_users]=/opt/nrpe/libexec/check_users -w 5 -c 10
command[check_load]=/opt/nrpe/libexec/check_load -w 15,10,5 -c 30,25,20
command[check_zombie_procs]=/opt/nrpe/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/opt/nrpe/libexec/check_procs -w 1500 -c 2000
command[check_hpux_disk]=/opt/nrpe/libexec/check_disk -w 20 -c 10
command[check_free_mem]=/opt/nrpe/libexec/check_mem.pl -f -w 10 -c 5 ##自写脚本，后面会贴出脚本内容

3.2 将NRPE配置为inetd管理的进程：

NRPE自带有配置脚本，只需执行下该脚本即可

/opt/nrpe/bin/configure.sh
##该脚本会将nrpe相关配置写入/etc/inetd.conf 和/etc/services，与Linux下nrpe启动配置一样

4、编写内存监控脚本：

NRPE自带有大量监控插件的，此处于linux下需要单独安装插件不同。但自带的插件不能监控内存，因此我借鉴网上别人脚本，再根据实际情况做了些调整：

#!/usr/bin/perl -w
#by barlow修改
#use strict;
use Getopt::Std;
use vars qw($opt_c $opt_f $opt_u $opt_w
$free_memory $used_memory $total_memory
$crit_level $warn_level
%exit_codes @memlist
$percent $fmt_pct
$verb_err $command_line);
# Predefined exit codes for Nagios
%exit_codes = ('UNKNOWN' ,-1,
'OK' , 0,
'WARNING' , 1,
'CRITICAL', 2,);
#
$verb_err = 0;
#注意命令需要全路径，且该命令需要root权限
$command_line = `/usr/sbin/swapinfo | tail -1 | awk '{print \$3,\$4}'`;
chomp $command_line;
@memlist = split(/ /, $command_line);
# Define the calculating scalars
$used_memory = $memlist[0];
$free_memory = $memlist[1];
$total_memory = $used_memory + $free_memory;
# Get the options
if ($#ARGV le 0)
{
&usage;
}
else
{
getopts('c:fuw:');
}
# Shortcircuit the switches
if (!$opt_w or $opt_w == 0 or !$opt_c or $opt_c == 0)
{
print "*** You must define WARN and CRITICAL levels!" if ($verb_err);
&usage;
}
elsif (!$opt_f and !$opt_u)
{
print "*** You must select to monitor either USED or FREE memory!" if ($verb_err);
&usage;
}
# Check if levels are sane
if ($opt_w <= $opt_c and $opt_f)
{
print "*** WARN level must not be less than CRITICAL when checking FREE memory!" if ($verb_err);
&usage;
}
elsif ($opt_w >= $opt_c and $opt_u)
{
print "*** WARN level must not be greater than CRITICAL when checking USED memory!" if ($verb_err);
&usage;
}
$warn_level = $opt_w;
$crit_level = $opt_c;
if ($opt_f)
{
$percent = $free_memory / $total_memory * 100;
$fmt_pct = sprintf "%.1f", $percent;
if ($percent <= $crit_level)
{
print "Memory CRITICAL -FREE $fmt_pct% (FREE:$free_memory kB TOTAL:$total_memory kB)\n";
exit $exit_codes{'CRITICAL'};
}
elsif ($percent <= $warn_level)
{
print "Memory WARNING -FREE $fmt_pct% (FREE:$free_memory kB TOTAL:$total_memory kB)\n";
exit $exit_codes{'WARNING'};
}
else
{
print "Memory OK -FREE $fmt_pct% (FREE:$free_memory kB TOTAL:$total_memory kB)\n";
exit $exit_codes{'OK'};
}
}
elsif ($opt_u)
{
$percent = $used_memory / $total_memory * 100;
$fmt_pct = sprintf "%.1f", $percent;
if ($percent >= $crit_level)
{
print "Memory CRITICAL -USED $fmt_pct% (USED：$used_memory kB TOTAL:$total_memory kB)\n";
exit $exit_codes{'CRITICAL'};
}
elsif ($percent >= $warn_level)
{
print "Memory WARNING -USED $fmt_pct% (USED：$used_memory kB TOTAL:$total_memory kB)\n";
exit $exit_codes{'WARNING'};
}
else
{
print "Memory OK -USED $fmt_pct% (USED：$used_memory kB TOTAL:$total_memory kB)\n";
exit $exit_codes{'OK'};
}
}
#打印帮助
sub usage()
{
print "\ncheck_mem.pl - Nagios Plugin\n\n";
print "usage:\n";
print " check_mem.pl -<f|u> -w <warnlevel> -c <critlevel>\n\n";
print "options:\n";
print " -f Check FREE memory\n";
print " -u Check USED memory\n";
print " -w PERCENT Percent free/used when to warn\n";
print " -c PERCENT Percent free/used when critical\n";
exit $exit_codes{'UNKNOWN'};
}

脚本说明：/usr/sbin/swapinfo 取出的信息并不是真实的物理内存使用情况，也不是swap信息，而是HP-UX系统下的页面调度信息，与服务器真实的内存使用情况有一定出入，但基本一致。

另外由于swapinfo命令需要管理员身份执行，因此我直接赋予脚本u+s权限：

chmod 4755 /opt/nrpe/libexec/check_mem.pl ##相当于chmod u+x

5、启动NRPE： 5.1 方法一：

# inetd -k && inetd ##重启inetd守护进程以实现nrpe的启动

5.2 方法二：

# su - nrpe
/opt/nrpe/bin/nrpe -c /opt/nrpe/etc/nrpe.cfg -i & ##以inetd服务方式启动
/opt/nrpe/bin/nrpe -c /opt/nrpe/etc/nrpe.cfg -d & ##独立守护进程

6、测试NRPE： 6.1 在被监控服务器上查看服务是否正常启动：

# netstat -an|grep -i tcp |grep 5666 ##查看监控端口是否开启

6.2 在Nagios服务器上测试联系NRPE：

/usr/local/nagios/libexec/check_nrpe -H HP-UX_IP
NRPE v2.12
##返回如上信息则正常
##反之则需要检查hp-ux服务器日志：
tail -20 /var/adm/syslog/syslog.log

至于Nagios服务器端的监控配置，前面的文章已经说过很多，这里就不再重复。 nagios培训

监控效果（点击图片放大查看）：[url=uploads/img/201505/31124541_F2wL.jpg][/url]
一、调优： 1.1 调整监控的灵敏度：

在Nagios的配置文件中，有个interval_length参数，定义了以后其他地方需要用到的间隔时间单位长度，该值默认为60s：

# INTERVAL LENGTH
# This is the seconds per unit interval as used in the
# host/contact/service configuration files. Setting this to 60 means
# that each interval is one minute long (60 seconds). Other settings
# have not been tested much, so your mileage is likely to vary...
interval_length=60

在定义主机和服务时，都是以该值为基础的，如服务中定义如下：

check_interval 6
retry_interval 2

则表示检查间隔为6*60s，即每6分钟才检查一次，而重试时间为2分钟。对于一些敏感度要求高的服务，这明显不能满足我们的要求，因此可以将其调小，如调整为10秒：

interval_length=10

这样就提高了检查的灵敏度，但有些服务又不需要如此高的灵敏度，如磁盘空间（不会一下就增加很多），则可以在定义check_interval是增大其数值。

还可以调整如下时间，定义主机和服务检测超时时长的，如下为默认值，单位为s：

service_check_timeout=120
host_check_timeout=60
event_handler_timeout=60
notification_timeout=60
ocsp_timeout=10
perfdata_timeout=10

注意：灵敏度和误报率是成正比的，检查间隔越小，月可能出现误报。需根据实际情况调整到合适的值。

1.2 服务和主机依赖：

定义服务依赖，有助于降低务必要的报警，如某服务器连接的交换机坏了，则服务器及其服务肯定无法再检测，此时就完全不再去检测服务器和其服务。

服务依赖定义语法：

标记了(*)的域是必备的而蓝色是可选的。然而你最少要在定义中给定出一种使用类型标准。

define servicedependency{
         dependent_host_name    host_name(*)
         dependent_hostgroup_name    hostgroup_name
         dependent_service_description    service_description(*)
         host_name    host_name(*)
         hostgroup_name    hostgroup_name
         service_description    service_description(*)
         inherits_parent    [0/1]
         execution_failure_criteria    [o,w,u,c,p,n]
         notification_failure_criteria    [o,w,u,c,p,n]
         dependency_period    timeperiod_name
         ...
         }

主机间依赖定义：

[url=uploads/img/201505/31124614_K9I6.png]

[/url]

在上图例子中，针对主机C的依赖关系定义将会是这样的：

define hostdependency{
host_name          Host A
dependent_host_name       Host C
notification_failure_criteria d
}
define hostdependency{
host_name          Host B
dependent_host_name       Host C
notification_failure_criteria d,u
}

二、使用pnpnagios实现对性能数据绘图：

只要检测返回数据包含性能数据（即返回结果以管道符|分开的，且有特定格式的部分），就可以使用rrdtool实现绘图，而rrdtool实现较为复杂，因此一般需要借组与第三方工具去操作rrdtool，如pnp4nagios、cacti实现绘图。还有一种方式是使用mrtg实现绘图，但mrtg功能较简单，且绘图开销较大。

Nagios默认提供了Nagiosgraph绘图功能，也提供了mrtg示例文件，要绘制各种Nagios的性能统计图的MRTG配置文件片段可查看Nagios发行包里sample-config/子目录下的mrtg.cfg文件。如果需要可以创建性能信息的其他图表文件－样例只是提供了一个好的起点。一旦你复制这些样例文件到你的MRTG配置文件(/etc/mrtg/mrtg.cfg)里，你将在MRTG的下次运行时得到这些新图表。mrtg和graph绘图功能官方说明文档中都有详细说明。

而我实际使用中，使用了pnp4nagios实现，实现办法网上有很多教程，这里不再详述，绘图效果如下：

[url=uploads/img/201505/31124614_GiE6.png]

[/url]

三、Nagios的权限和通知功能加强：

在我所监控的环境中，监控服务器超过200台，网络设备几十台，服务上千，这些服务器和网络设备是有几个人进行管理的。而监控的服务就有更多的人关心，如开发测试部门，他们需要知道自己负责的系统的服务状态。因此要求Nagios的通知功能和查看权限要进行细化配置，而这又正是Nagios的比较弱的地方，我采用了如下的方式实现：

3.1 使用LDAP认证：

我实际的环境中，需要Nagios权限的人有近20个，如果使用传统的密码文件方式认证，很不利于管理（比如用户不能自己修改密码，用户要记多个系统不同的密码），而我们所有系统的认证都是通过Windows Active Directory进行认证的，因此使用LDAP认证可以实现统一认证。在apache httpd中，提供了一个mod_authnz_ldap模块，可以实现基于ldap的认证，mod_authnz_ldap认证分两个阶段完成，第一阶段会去ldap查找用户是否存在，第二阶段：如果查找到该用户，则验证该用户是否具有相应权限。关于该模块的详细说明可参考官方文档，详细实现过程如下：

3.1.1 在域控制器上特定OU下建立具有Nagios权限的用户组：

在AD域上，创建一个组，将需要访问Nagios的用户都加入到该组即可。我这里所有用于管理的都建立的admin这个OU下，组名为nagiosusers。

3.1.2 配置Nagios通过LDAP认证：

编辑Nagios的httpd配置文件，将所有使用密码文件验证的地方替换为ldap验证，具体如下：

vi /etc/httpd/conf.d/nagios.conf
<Directory "/usr/local/nagios/share">
# SSLRequireSSL
Options None
AllowOverride None
Order allow,deny
Allow from all
# 如下红色几行为原默认认证方式
# AuthName "Nagios Access"
# AuthType Basic
# AuthUserFile /etc/nagios/htpasswd.users
# Require valid-user
# 如下部分为LDAP认证方式
AuthName "Nagios Access"
AuthType Basic
AuthBasicProvider ldap
AuthzLDAPAuthoritative On
#注意ldap路径的方式，用户和组使用CN，组织单元使用OU
AuthLDAPURL [url=]ldap://dc01.toxingwang.com:389/OU=admin,DC=toxingwang,DC=com?sAMAccountName?sub?(objectClass[/url]=*)
AuthLDAPBindDN nagiosadmin@toxingwang.com ##与AD通讯的账号，任意普通账号即可
AuthLDAPBindPassword password ##上述账号的密码，注意，明文方式，因此一定使用普通账号
#如下一行可定义基于指定ou下的用户验证
#Require valid-user
#如下两行定义基于指定组的认证
AuthLDAPGroupAttributeIsDN on ##开启基于组的验证
#组对应的ldap路径
require ldap-group CN=nagiousers,OU=admin,DC=toxingwang,DC=com
</Directory>

注意需要替换所有用到验证的地方（包含pnp4nagios的httpd配置）。然后重启httpd即可使用域账号登录nagios了。当然可以访问nagios的web页面，不一定具有查看相关监控服务的权限，下面进行定义：

3.2 定义联系人： 3.2.1 定义联系人：

打开Nagios的contacts.cfg文件，定义每一个就具有权限的用户：

define contact {
      contact_name                   barlow ##需要与WindowsAD域中的账号相同
      alias                         Barlow
      ##如下两行定义通知方式，后面会详细讲到
      host_notification_commands    notify-host-by-email,notify-host-by-message
      service_notification_commands notify-service-by-email,notify-service-by-message
      email                         barlow@toxingwang.com  ##定义通知邮箱
      address1                      18000000000 ##定义短信通知手机
      use                            generic-contact    ##使用通用模板
      register                      1 ##是否启用
      }

3.2.2 定义联系人组：

按用户管理服务的不同，定义相关的联系人组，如DBA管理组、OA管理组、网络管理组、SAP管理组等，编辑contactgroups.cfg

define contactgroup {
      contactgroup_name             admins
      alias                         Nagios Administrators
      members                      barlow
      register                      1
}
define contactgroup {
      contactgroup_name             netadmins
      alias                         Network Administrators
      members                      zhangsan,barlow,lisi ##组内包含的用户
      register                      1
}

3.2.3 使用服务模板和主机模板的方式实现权限管理：

与联系人组定义思想相同，按权限不同，将相关联系人组和联系人加入到服务模板和主机模板，以后在定义服务是引用该模板即可，具体实现如下：

编辑主机模板文件：hosttemplates.cfg

define host {
      name                         generic-network-admins
      contact_groups                netadmins ##将上诉定义的联系人组加入
      register                      0
}

以后在定义主机时，如果需要改组用户具有此主机的权限，则引用该模板即可。

编辑服务模板文件：servicetemplates.cfg

define service {
      name                         network-service-admins
      #如下几行定义通知机制，可根据需要调整
      #notification_interval          30
      #notification_period          24x7
      #notification_options          w,u,c,r
      #notifications_enabled          1
      contact_groups                admins,netadmins
      register                      0
}

同使用主机模板一样，在以后定义服务时，如果需要用户具有查看该服务的权限，则引用模板即可。

3.3 使用Mail和短信双重报警：

我使用sendEmail脚本（脚本下载）发送通知邮件，命令定义如下：

define command {
      command_name                   notify-service-by-email
      command_line                   /usr/bin/printf "%b" "**Server Info for $HOSTALIAS$**\nAdditional Info:\n\n$SERVICEOUTPUT$\n\nNotification Type: $NOTIFICATIONTYPE$\n\nService: $SERVICEDESC$\nHost: $HOSTALIAS$\nAddress: $HOSTADDRESS$\nState: $SERVICESTATE$\n\nDate/Time: $LONGDATETIME$\n\nIf you have any questions, please send email tobarlow@toxingwang.com or call my phone 13360052520\n" | /usr/local/sendEmail/sendEmail –f <发件人邮箱> -t $CONTACTEMAIL$ –s <smtp服务器> -u "$NOTIFICATIONTYPE$ Service:$HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$" -xu <发件人账号（邮箱）>  -xp <发件人密码> -o message-charset=utf-8 -o message-header=utf-8
      register                      1
}

短信通知功能可以使用短信猫、飞信、或者其他短信接口实现，我使用公司短信结构实现，命令定义如下：

define command {
      command_name                   notify-service-by-message
      command_line                   $USER1$/sendmessage.py $CONTACTADDRESS1$ "$NOTIFICATIONTYPE$ Service:$HOSTALIAS$ / $SERVICEDESC$ is $SERVICESTATE$!$SERVICEOUTPUT$ –by Nagios"
      register                      1
}

想做Nagios， Zabbix,Cacti,iTop各种交流的，可以进入开源监控工具Nagios交流 QQ群号：476809427

上一篇：简化nagios监控部署ansible+shell方案
下一篇：nagios与zorka是如何协作的

监控平台——Nagios

评论