检查项目 | 检查指标 | 检查标准 |
系统资源 | CPU 使用率 | 正常:<70% 低风险:≥ 70% 中风险:≥ 85% 高风险:≥ 95% |
内存使用率 | 正常:<70% 低风险:≥ 70% 中风险:≥ 85% 高风险:≥ 95% |
磁盘使用率 | 正常:<80% 异常:≥ 80% |
系统负载 | 正常:<70% 低风险:≥ 70% 中风险:≥ 85% 高风险:≥ 95% |
日志文件是否有异常 | 正常:日志中风险无 ERROR报错 低风险:日志中风险少量ERROR报错且不影响业务 中风险:日志出现5%以上的ERROR报错且影响非核心业务 高风险:日志中风险出现10%以上的ERROR报错且已经影响核心业务或者集群状态 |
系统服务是否正常运行 | 正常:没有Failed和Down状态的服务 低风险:有Failed和Down状态的服务但不影响业务 中风险:有Failed和Down状态的服务且影响非核心业务 高风险:有Failed和Down状态的服务已经影响部分业务或者集群状态 |
检查系统是否有波峰波谷 | 正常:指标线没有明显的大波动 低风险:少数波峰波谷,一天2-5次且持续时间不长 中风险:频繁波峰波谷,一天≥5次且持续时间不长 高风险:一直处于波峰波谷,无法提供服务 |
K8S集群 | 节点状态 | 正常:节点状态为 Ready 低风险:出现1台状态为NotReady 中风险:出现2台状态为NotReady 高风险:大于2台状态为NotReady |
Pod 状态 | 正常:所有 Pod 状态为 Running 低风险:Pod状态为Running但出现重启的情况 中风险:非核心业务Pod出现不可用状态 高风险:核心业务Pod不可用 |
持久卷状态 | 正常:所有持久卷状态均为 Bound 低风险:持久卷出现异常但不影响业务 中风险:持久卷出现异常且影响非核心业务 高风险:所有持久卷不可用且核心业务受影响 |
节点资源使用情况 | 正常:所有节点资源使用率均低风险于 70% 低风险:所有节点资源使用率大于70%且不影响业务 中风险:所有节点资源使用率大于80%且影响非核心业务 高风险:所有节点资源使用率大于95%且影响核心业务 |
节点间通信是否正常 | 正常:节点间通信延迟低风险于 50ms,无丢包 低风险:节点间通信延迟大于 50ms但不影响业务 中风险:节点间通信延迟大于 100ms出现丢包,且影响非核心业务 高风险:节点间通信延迟大于 150ms出现丢包,且影响核心业务 |
Nginx | 端口监听 | 正常:监听端口包含nginx配置文件监听的端口 低风险:监听端口不包含且不影响业务 中风险:监听端口不包含且影响非核心业务 高风险:监听端口不包含且影响核心业务 |
访问正常 | 正常:响应状态码为 200 低风险:出现非200但不影响业务 中风险:出现非200影响非核心业务 高风险:出现非200且影响核心业务 |
日志记录 | 正常:日志中风险无 ERROR报错 低风险:日志中风险少量ERROR报错,不影响使用 中风险:日志出现2%的ERROR报错,影响非重要业务 高风险:日志中风险出现10%以上的ERROR报错且已经影响部分重要业务 |
连接数 | 正常:<1024 低风险:≥ 1024 中风险:≥ 2048 高风险:≥ 4096 |
JAVA应用 | 程序运行状态 | 正常:服务正在运行 低风险:服务实例数<2但不影响业务 中风险:服务不可用数<2影响非核心业务 高风险:应用程序无法正常运行,核心服务不可用 |
检查Pod是否有波峰波谷 | 正常:指标线没有明显的大波动 低风险:少数波峰波谷,一天2-5次且持续时间不长 中风险:频繁波峰波谷,一天≥5次且持续时间不长 高风险:一直处于波峰波谷,无法征程提供服务 |
RabbitMQ | 节点状态 | 正常:所有节点状态为 running 中风险:出现一个节点状态为down 高风险:所有节点状态为down |
队列长度 | 正常:≤ 500 低风险:>500 中风险:>1000 高风险:> 2000 |
Redis | 连接数 | 正常:<1024 低风险:≥ 1024 中风险:≥ 2048 高风险:≥ 4096 |
内存使用率 | 正常:<70% 低风险:≥ 70% 中风险:≥ 85% 高风险:≥ 95% |
PostgreSQL | 数据库连接数 | 正常:<1024 低风险:≥ 1024 中风险:≥ 2048 高风险:≥ 4096 |
磁盘空间使用率 | 正常:<80% 异常:≥ 80% |
Elasticsearch | 集群状态 | 正常:集群status为 green 低风险:集群status为 yellow 高风险:集群status 为 red,出现不可用状态 |
索引状态 | 正常:索引status为 open 高风险:索引status为 down |
ELK日志系统 | 日志收集是否正常 | 正常:应用输出的日志是否与ELK收集的一致 低风险:日志出现不一致,收集不完全 |
索引状态 | 正常:索引status为 open 中风险:索引状态status为 down |