本帖最后由 monicazhang 于 2015-11-12 16:43 编辑
20151112 淡然 续上
6.3.2 网络监控 网络管理对网络设备、链路、结构进行统一管理,主要为网络管理员服务。包括:网络拓扑管理、网络性能管理、网络故障管理 网络拓扑管理 ITSS考试 Ø 需要支持网络节点的自动发现,支持第二层网络拓扑结构的发现,网络拓扑结构的自动生成及实时更新; Ø 对于自动发现的网络设备和不同平台的主机以不同的图标显示出来,便于直观的观察和监控; Ø 要能方便、直观地定制网络监控策略、发现过滤策略; Ø 支持多层次的分布管理模型。在网络规模有较大扩展时,能通过合理部署,使网络管理性能不受影响; Ø 提供各种网络拓扑图、各种逻辑分类视图,各视图要求层次清晰。 Ø 支持IP与Mac地址绑定,当有新增加的节点IP与Mac地址不符合,显示红色图象,并报警给用户。
网络性能管理 Ø 根据被管理对象的类型及其属性,定时采集性能数据,如 CPU 利用率、内存利用率、端口利用率、端口错误率、端口丢包率,自动生成统计分析报表; Ø 可对每一个需要被实时监控的对象,如 CPU 利用率、内存利用率、端口利用率、端口错误率、端口丢包率等进行阈值设置。通过设置阈值检查和告警,提供相应的阈值管理和溢出告警机制; Ø 网络性能数据要能够保存到关系型数据库中,进行分析、统计和整理,按照不同的时间粒度生成性能趋势曲线,以直观的图形反映性能分析的结果,并能够得出相应的报表;
网络故障管理 Ø 要能收集存储和监控网络中发生的各种SNMP Trap报警事件,根据需要定制监控的对象和内容,当出现预定义的故障或超出性能阈值时,将按照管理员指定的处理方式自动报警或动作处理; Ø 当发生网络故障时,能提供多种报警方式,如电子邮件,声音,告警信息、发手机 短信等报警方式; Ø 对于故障点,能在管理视图中以特定方式与正常节点加以区分,并能依据故障的严重程度给予不同的显示; Ø 需要提供连通性故障定位功能,并将明确的故障发生定位信息通过告警系统发送到网络管理员;对于故障事件能进行自动关联,给出最直接的故障原因,帮助管理员在最短的时间内解决问题;提供故障诊断功能; Ø 对于发生的故障事件,自动进行统计汇总;能与帮助台联动,实现故障处理的规范化。
6.3.3 数据库监控 数据库管理对数据库状态、性能进行统一管理,主要为数据库管理员服务。包括:状态监控、性能管理、日志管理 数据库性能和事件管理 Ø 空间监控:监控表空间、Redo日志、Archive日志的使用情况,超过指定阈值则报警; Ø 能够监控表空间碎片:表空间名称、数据文件名称、每个表空间的碎片数、最大连续区域、最小连续区域、平均区域大小; Ø 能够监控关键比率:Buffer cache 命中率、Library cache 命中率、Dictionary cache命中率、内存排序比率、分析/执行比率、空闲共享池百分比; Ø 显示和过滤 Alert Log中的报警; Ø 由内存容量引起的数据库应答缓慢; Ø 能够进行瓶颈分析:最大几个锁失败、 Buffer Cache、 Buffer 忙等待次数、空闲 Buffer平均等待次数、 共享池、对象重新装入次数、日志Buffer、 重
做日志等待空间次数、重做日志等待空间时间; Ø 锁资源监控,对阻塞了其它会话的锁进行告警,以及可用的锁; ITSS认证 Ø 等待某回滚段完成的事务百分比; Ø 监控 SGA、Buffer Cache、I/O等相关的性能数据,包括数据库buffer大小、DB Cache大小、固定的大小、日志Buffer大小、共享池大小、Large Pool 的大小、Java Pool 的大小; Ø 监控数据库会话的状况,尤其是会话等待:历史等待信息、当前等待信息、系统等待、系统等待统计等信息; Ø 能够对 SQL 的执行效率进行扫描,分析出占用资源较大的sql语句; Ø 监控磁盘的数据块使用情况以及被频繁读写的区域; Ø 需要监控到数据库内与 TRANSACTION 相关的参数设置,总的 TRANSACTION 数量,当前 正在活动的 TRANSACTION 状况。监控到 TABLESPACE、
DATAFILE 级上的读写和 I/O 总体状况; Ø 需要监控到数据库系统内当前的用户,所存在的所有的锁,锁的类型和状态,与每个锁相关的SESSION,OBJECT,及相应的SQL语句。监控到数据库库内锁等待的状况,锁 HOLD 的情况, 及数据库内与锁的设置相关的参数; Ø 监控到当前的数据库实例状况(后台进程+SGA),内存缓冲区的命中率,I/O SUMMARY 的状况,PROCESS 的状况,及与 PROCESS 相关的参数设置; Ø 监控到 DATA BUFFER,LIBRARY CACHE 的命中率
6.3.4 中间件监控
中间件管理对应用中间件、消息中间件进行统一管理,主要为中间件管理员服务。包括应用中间件管理、消息中间件管理 中间件性能和事件管理 Ø 对 Weblogic 性能进行监控,当性能超出指定阈值时报警,包括: a. 监控应用服务器占用资源 CPU、内存占有情况; b. 域和服务器,包括域名称、以及各个服务器名称及状态; c. 服务器状态,包括服务器版本、启动时间、当前状况、监听地址和端口以及Socket数等; d. 事务处理,包括各种事务的提交数、不同原因的回滚数、事务处理花费时间等一些事务处理的信息; e. 集群,包括集群服务器数目、消息的状况、远程服务器列表和群集中服务器名称列表等信息; f. 对 JSP/SERVLET 监控:最大执行时间,平均执行时间,重新加载累计值,重新加载累 计值比率; g. 对 EJB 的监控:EJB 名称、应用名称、组件名称、提交、回滚、超时、访问的次数以及当前等待等信息; h. 执行队列,包括各个执行队列中线程数、空闲数、等待数以及执行线程情况列表等信息; i. 对连接池的监控:当前活动、等待连接,活动数、等待连接最高数,等待秒数最高值; j. 监控包括各个JMS服务器的连接数目、状态、连接列表和所有JMS服务器的运行状态信息; Ø 对 Websphere MQ Series 进行监控、分析以优化 MQ 网络,包括监控: a. 监控 Websphere MQ Series 磁盘空间; ITSS培训 b. 消息队列管理器; c. 别名; d. 通道;
|