ELK集群监控

清峰大约 6 分钟ELK日志收集技术ELK集群监控性能监控

ELK集群监控

集群监控概述

ELK集群监控是确保日志收集系统稳定运行的重要环节。通过全面的监控体系，可以及时发现系统性能瓶颈、资源使用异常和潜在故障，保障日志数据的完整性和可用性。本章节将详细介绍ELK集群的监控策略、工具和最佳实践。

监控架构设计

1. 监控层次

基础设施监控

监控内容：
- 服务器CPU、内存、磁盘使用率
- 网络流量和延迟
- 系统进程和资源使用情况

应用服务监控

监控内容：
- Elasticsearch集群健康状态
- Kibana服务可用性
- Logstash数据处理性能
- Beats客户端状态

业务指标监控

监控内容：
- 日志收集量和处理速度
- 查询响应时间和成功率
- 用户访问行为和体验

2. 监控数据流

监控数据流向

[被监控系统] --> [Metricbeat] --> [Elasticsearch] --> [Kibana]
      |              |                |              |
      |              |                |              |
      v              v                v              v
[系统指标]     [性能数据]       [存储分析]      [可视化展示]

多层次监控

第一层：本地监控（本机Metricbeat收集）
第二层：集中监控（专用监控节点收集）
第三层：外部监控（第三方监控系统集成）

Elasticsearch监控

1. 集群健康监控

健康状态检查

# 获取集群健康状态
GET /_cluster/health

# 响应示例
{
  "cluster_name": "elasticsearch-cluster",
  "status": "green",  # green/yellow/red
  "timed_out": false,
  "number_of_nodes": 3,
  "number_of_data_nodes": 3,
  "active_primary_shards": 10,
  "active_shards": 20,
  "relocating_shards": 0,
  "initializing_shards": 0,
  "unassigned_shards": 0
}

节点状态监控

# 获取节点统计信息
GET /_nodes/stats

# 获取节点信息
GET /_cat/nodes?v

# 获取分片分配情况
GET /_cat/shards?v

2. 性能指标监控

关键性能指标

# 获取索引统计信息
GET /_stats

# 获取搜索性能指标
GET /_nodes/stats/indices/search

# 获取索引性能指标
GET /_nodes/stats/indices/indexing

资源使用监控

# 获取JVM统计信息
GET /_nodes/stats/jvm

# 获取进程统计信息
GET /_nodes/stats/process

# 获取操作系统统计信息
GET /_nodes/stats/os

3. 监控告警配置

告警规则示例

{
  "name": "Cluster Health Alert",
  "schedule": {
    "interval": "1m"
  },
  "input": {
    "search": {
      "request": {
        "indices": [".monitoring-*"],
        "body": {
          "query": {
            "match": {
              "cluster_state.status": "red"
            }
          }
        }
      }
    }
  },
  "condition": {
    "compare": {
      "ctx.payload.hits.total": {
        "gt": 0
      }
    }
  },
  "actions": {
    "send_email": {
      "email": {
        "to": "admin@example.com",
        "subject": "Elasticsearch Cluster Health Critical",
        "body": "Cluster health status is RED. Immediate attention required."
      }
    }
  }
}

Kibana监控

1. 服务状态监控

Kibana状态API

# 获取Kibana状态
GET /api/status

# 响应示例
{
  "name": "kibana",
  "uuid": "uuid-string",
  "version": {
    "number": "7.15.0"
  },
  "status": {
    "overall": {
      "state": "green",
      "title": "Green",
      "nickname": "Looking great!",
      "icon": "success",
      "since": "2023-01-01T00:00:00.000Z"
    }
  }
}

性能指标监控

# 获取Kibana指标
GET /api/metrics

# 获取应用统计信息
GET /api/stats

2. 用户行为监控

访问日志分析

# 分析用户访问模式
GET /_search
{
  "query": {
    "match": {
      "message": "kibana_access_log"
    }
  },
  "aggs": {
    "user_sessions": {
      "terms": {
        "field": "user.id"
      },
      "aggs": {
        "session_duration": {
          "max": {
            "field": "@timestamp"
          }
        }
      }
    }
  }
}

Logstash监控

1. Pipeline监控

Pipeline状态监控

# 获取Pipeline统计信息
GET /_node/stats/pipelines

# 响应示例
{
  "pipelines": {
    "main": {
      "events": {
        "in": 10000,
        "out": 9995,
        "duration_in_millis": 5000
      },
      "plugins": {
        "inputs": [...],
        "filters": [...],
        "outputs": [...]
      }
    }
  }
}

插件性能监控

# 获取插件统计信息
GET /_node/stats/plugins

# 监控特定插件
{
  "plugins": {
    "inputs": {
      "beats": {
        "events": {
          "in": 5000,
          "out": 5000
        }
      }
    },
    "outputs": {
      "elasticsearch": {
        "events": {
          "in": 4995,
          "out": 4995,
          "duration_in_millis": 2500
        }
      }
    }
  }
}

2. 性能优化监控

处理延迟监控

{
  "pipeline": {
    "batch_size": 125,
    "batch_delay": 50,
    "workers": 4,
    "queue": {
      "type": "memory",
      "events": 0,
      "capacity": {
        "page_capacity_in_bytes": 67108864,
        "max_queue_size_in_bytes": 1073741824,
        "max_unread_events": 0
      }
    }
  }
}

Beats监控

1. Metricbeat监控

系统指标收集

# metricbeat.yml
metricbeat.modules:
- module: system
  metricsets:
    - cpu
    - memory
    - network
    - diskio
    - filesystem
  enabled: true
  period: 10s

Elasticsearch监控

# metricbeat.yml
metricbeat.modules:
- module: elasticsearch
  metricsets:
    - node
    - node_stats
    - index
    - index_recovery
    - index_summary
  enabled: true
  period: 10s
  hosts: ["localhost:9200"]

2. Filebeat监控

收集状态监控

# filebeat.yml
filebeat.inputs:
- type: log
  enabled: true
  paths:
    - /var/log/*.log
  fields:
    service: "web-server"
  fields_under_root: true

# 启用监控
monitoring.enabled: true
monitoring.elasticsearch:
  hosts: ["localhost:9200"]

性能指标监控

# 查看Filebeat状态
curl -XGET 'localhost:5066/stats'

# 响应示例
{
  "system": {
    "cpu": {
      "cores": 4,
      "total": {
        "value": 12.5,
        "ticks": 12500
      }
    },
    "memory": {
      "total": 8589934592,
      "used": 2147483648
    }
  }
}

监控仪表板设计

1. Elasticsearch监控仪表板

核心指标面板

面板组件：
- 集群健康状态指示器
- 节点数量和状态
- 分片分配情况
- 索引数量和大小
- 查询性能图表
- 索引性能图表

资源使用面板

面板组件：
- CPU使用率趋势图
- 内存使用情况
- JVM堆内存使用
- 磁盘空间使用
- 网络流量监控

2. Kibana监控仪表板

服务状态面板

面板组件：
- Kibana服务可用性
- 响应时间监控
- 并发用户数
- 请求成功率
- 错误率统计

用户行为面板

面板组件：
- 活跃用户数
- 页面访问统计
- 功能使用情况
- 用户会话时长
- 地理位置分布

3. Logstash监控仪表板

数据处理面板

面板组件：
- 数据输入速率
- 数据输出速率
- 处理延迟监控
- 批处理效率
- 插件性能对比

资源使用面板

面板组件：
- CPU使用率
- 内存使用情况
- JVM性能指标
- 线程池状态
- 队列使用情况

告警策略

1. 告警级别定义

紧急告警（Critical）

触发条件：
- 集群状态为red
- 节点宕机
- 磁盘空间不足10%
- 内存使用率超过95%

通知方式：
- 短信通知
- 电话告警
- 邮件通知

重要告警（High）

触发条件：
- 集群状态为yellow
- CPU使用率超过90%
- 内存使用率超过90%
- 数据处理延迟超过阈值

通知方式：
- 邮件通知
- 即时通讯工具

一般告警（Medium）

触发条件：
- 磁盘空间不足20%
- CPU使用率超过80%
- 内存使用率超过80%
- 查询响应时间异常

通知方式：
- 邮件通知
- 监控看板高亮

2. 告警规则配置

Elasticsearch告警规则

{
  "name": "Disk Space Alert",
  "schedule": {
    "interval": "5m"
  },
  "input": {
    "search": {
      "request": {
        "indices": [".monitoring-*"],
        "body": {
          "query": {
            "range": {
              "node_stats.fs.total.available_in_bytes": {
                "lt": 10737418240  // 10GB
              }
            }
          }
        }
      }
    }
  },
  "condition": {
    "compare": {
      "ctx.payload.hits.total": {
        "gt": 0
      }
    }
  },
  "actions": {
    "send_email": {
      "email": {
        "to": "ops@example.com",
        "subject": "Low Disk Space Alert",
        "body": "Node {{ctx.payload.hits.hits.0._source.node_stats.name}} has low disk space."
      }
    }
  }
}

Kibana告警规则

{
  "name": "Kibana Service Down",
  "schedule": {
    "interval": "1m"
  },
  "input": {
    "http": {
      "request": {
        "host": "localhost:5601",
        "path": "/api/status",
        "scheme": "http"
      }
    }
  },
  "condition": {
    "not": {
      "http": {
        "status": 200
      }
    }
  },
  "actions": {
    "send_email": {
      "email": {
        "to": "admin@example.com",
        "subject": "Kibana Service Unavailable",
        "body": "Kibana service is not responding."
      }
    }
  }
}

监控工具集成

1. Prometheus集成

Elasticsearch Exporter

# 安装Elasticsearch Exporter
docker run -p 9114:9114 justwatch/elasticsearch_exporter \
  -es.uri=http://localhost:9200 \
  -es.all=true

Prometheus配置

# prometheus.yml
scrape_configs:
- job_name: 'elasticsearch'
  static_configs:
  - targets: ['localhost:9114']

2. Grafana集成

数据源配置

数据源类型：Elasticsearch
URL：http://localhost:9200
索引名称：.monitoring-*
时间字段名称：timestamp

仪表板导入

推荐仪表板：
- Elasticsearch Cluster Monitoring
- Logstash Monitoring
- Kibana Monitoring
- System Metrics

故障排查

1. 常见监控问题

监控数据缺失

可能原因：
- 监控组件未启动
- 网络连接问题
- 权限配置错误
- 配置文件错误

解决方法：
1. 检查监控组件状态
2. 验证网络连接
3. 检查权限配置
4. 验证配置文件语法

性能指标异常

可能原因：
- 系统资源不足
- 配置参数不合理
- 数据量激增
- 硬件故障

解决方法：
1. 分析资源使用情况
2. 调整配置参数
3. 优化数据处理流程
4. 检查硬件状态

2. 监控最佳实践

监控策略

监控原则：
- 全面覆盖关键指标
- 设置合理的告警阈值
- 定期审查告警规则
- 建立监控响应流程

数据保留策略

# ILM策略配置
{
  "policy": {
    "phases": {
      "hot": {
        "actions": {
          "rollover": {
            "max_age": "7d",
            "max_size": "50gb"
          }
        }
      },
      "warm": {
        "min_age": "7d",
        "actions": {
          "forcemerge": {
            "max_num_segments": 1
          }
        }
      },
      "delete": {
        "min_age": "30d",
        "actions": {
          "delete": {}
        }
      }
    }
  }
}

总结

ELK集群监控是保障日志收集系统稳定运行的重要手段。通过建立完善的监控体系，可以及时发现和解决系统问题，优化性能表现，确保数据的完整性和可用性。在实际应用中，需要根据具体的业务需求和系统特点，选择合适的监控工具和策略，并持续优化监控配置，提升系统的可观测性和运维效率。