在运维工作中,Zabbix 通常会监控以下几类数据,并根据预设的监控标准进行告警和通知。以下是详细的监控数据类型和监控标准说明:
1. Zabbix 通常监控的数据类型
1. 硬件监控
服务器:CPU 使用率、内存使用率、磁盘空间、磁盘 I/O 速率、风扇转速、温度等。
网络设备:路由器、交换机的端口流量、丢包率、延迟等。
防火墙:流量、连接数、安全事件等。
2. 系统监控
CPU:CPU 使用率(用户态、系统态、空闲时间)、上下文切换次数、中断次数等。
内存:总内存、可用内存、已用内存、Swap 使用情况等。
磁盘:磁盘空间使用率、I/O 速率、平均等待时间等。
网络:网卡状态、发送/接收流量、错误数据包、丢弃数据包等。
进程:进程数量、僵尸进程数量、特定进程的 CPU 和内存占用等。
用户:当前登录用户数量。
3. 服务监控
Web 服务:Nginx、Apache 的响应时间、请求量、错误率等。
数据库:MySQL、PostgreSQL、MongoDB 的连接数、查询速度、缓冲池命中率等。
缓存系统:Redis、Memcached 的命中率、连接数、内存使用情况等。
中间件:Kafka、RabbitMQ 的队列长度、消息吞吐量等。
4. 网络监控
网络延迟:通过 Smokeping 或 Zabbix 自身功能监控多机房、多节点的延迟。
带宽使用:监控网络设备的进出口流量,分析流量高峰和异常。
5. Web 应用监控
响应时间:页面加载时间、API 请求时间等。
可用性:通过模拟用户操作(如登录、提交表单)监控 Web 应用的功能完整性。
6. 日志监控
日志内容:通过 ELK 或其他日志系统监控日志中的异常信息。
日志生成速率:监控日志文件的大小变化,发现潜在问题。
7. 安全监控
防火墙规则:监控 Firewalld 等防火墙规则的变更。
安全事件:监控 WAF、安全狗等工具的告警信息。
8. 业务监控
业务指标:如电商网站的销售量、转化率、新客户数量等。
活动监控:监控活动页面的流量、注册量、订单量等。
2. Zabbix 的监控标准
监控标准通常是通过触发器(Triggers)来定义的,触发器基于监控项的值设置阈值,当监控项的值超出阈值时,触发器状态变为“问题”,并生成事件。以下是一些常见的监控标准示例:
1. CPU
CPU 使用率超过 90% 持续 5 分钟。
系统负载(1 分钟、5 分钟、15 分钟平均值)超过 CPU 核心数。
2. 内存
可用内存低于 10%。
Swap 使用率超过 50%。
3. 磁盘
磁盘空间使用率超过 80%。
磁盘 I/O 等待时间超过 10ms。
4. 网络
网卡流量超过设定阈值(如 100Mbps)。
网络延迟超过 100ms。
5. 服务
Web 服务响应时间超过 3 秒。
数据库连接数超过最大连接数的 80%。
6. 自定义监控
自定义脚本监控的指标(如 MySQL 的复制延迟超过 1 秒)。
3. 监控标准的设置原则
业务相关性:监控标准应与业务需求紧密相关,确保监控指标能够反映业务的健康状态。
可维护性:监控标准应易于理解和调整,避免过于复杂的触发器。
平衡性:避免过多的告警,以免造成运维人员疲劳。
综上所述,通过合理设置监控标准,Zabbix 可以有效帮助运维人员及时发现和解决问题,保障系统的稳定运行。