Datadog 인프라스트럭처 모니터링(Infrastructure Monitoring)

[!tldr] 한줄 요약 Datadog 인프라스트럭처 모니터링은 Host Map, Live Containers, Live Processes, Autodiscovery 등으로 호스트·컨테이너·프로세스의 상태를 실시간 시각화하고 1,000개 이상의 통합으로 클라우드/서버리스까지 커버한다.

핵심 내용

주요 화면 4가지

1. Infrastructure List (인프라 목록)

Datadog이 모니터링하는 모든 호스트의 목록. 호스트별 CPU, 메모리, 로드 등 핵심 메트릭.md)과 적용된 태그.md)를 한눈에 볼 수 있다.

2. Host Map / Container Map (인프라 맵)

호스트나 컨테이너를 육각형 타일로 시각화한 맵. 색상과 크기로 메트릭을 표현한다.

[!tip] Host Map의 핵심 가치 수백 대의 호스트 상태를 한 화면에서 시각적으로 파악할 수 있다. "빨간 타일이 어디에 몰려있나?"로 장애 범위를 즉시 판단 가능.

3. Live Containers (실시간 컨테이너)

실행 중인 모든 컨테이너를 2초 간격으로 실시간 모니터링.

4. Live Processes (실시간 프로세스)

호스트/컨테이너에서 실행 중인 개별 프로세스를 2초 간격으로 모니터링.

수집되는 주요 시스템 메트릭

카테고리메트릭 예시설명
CPUsystem.cpu.user, system.cpu.system, system.load.1사용률, 로드 평균
메모리system.mem.used, system.mem.free, system.swap.used메모리 사용량
디스크system.disk.used, system.disk.read_time, system.io.r_s디스크 사용량, IOPS
네트워크system.net.bytes_sent, system.net.bytes_rcvd네트워크 트래픽
컨테이너container.cpu.usage, container.memory.usage컨테이너 리소스

이 메트릭들은 Datadog Agent의 Collector가 15초 간격으로 자동 수집한다.

통합(Integration)과 Autodiscovery

통합(Integration): 1,000개 이상의 기술 스택과 연동. 설치 즉시 기본 대시보드.md)와 메트릭 수집이 활성화된다.

Autodiscovery: Agent가 컨테이너 환경에서 새로 뜨는 서비스를 자동 감지하고 모니터링을 시작한다. Kubernetes에서 Pod이 생성/삭제될 때 수동 설정 없이 자동으로 적절한 Check을 적용한다.

서버리스 모니터링

AWS Lambda, Fargate 같은 Agent를 설치할 수 없는 환경도 지원:

예시

장애 발생 시 인프라 모니터링 활용 흐름:

1. Host Map에서 빨간 타일 확인
   → env:production, availability-zone:ap-northeast-2a에 집중

2. 해당 호스트 클릭 → system.cpu.user 90% 이상
   → 특정 호스트들의 CPU가 과부하

3. Live Processes로 드릴다운
   → java 프로세스가 CPU 80% 점유 확인

4. 해당 호스트의 service:checkout 태그 확인
   → APM 트레이스로 전환하여 근본 원인 분석

[!example] Autodiscovery 동작 Kubernetes에서 Redis Pod이 새로 배포되면:

  1. Agent가 Pod 라벨/어노테이션을 감지
  2. Redis Check를 자동 적용
  3. Redis 메트릭(redis.clients.connected, redis.mem.used 등) 수집 시작
  4. Redis 기본 대시보드에 즉시 반영

→ 수동 설정 없이 "배포하면 바로 모니터링"

참고 자료

관련 노트