Workflow Automation

[!tldr] 한줄 요약 모니터 알림, 보안 시그널, 스케줄 등을 트리거로 1,750+ 내장 액션을 연결하여 인시던트 대응과 인프라 운영을 자동화하는 Datadog 기능

핵심 내용

트리거 유형

워크플로우를 시작하는 4가지 방법이 있다:

트리거설명예시
Monitor모니터 알림 상태 변경 시 자동 실행CPU 사용률 90% 초과 알림 → EC2 스케일아웃
Security Signal보안 탐지 규칙 트리거 시 실행의심스러운 로그인 감지 → Okta 계정 정지
Schedule크론 방식의 주기적 실행매일 미사용 EC2 키 페어 점검
Manual대시보드, Slack 등에서 수동 실행피처 플래그 토글, Lambda 롤백

추가로 2025년에 도입된 Automation RulesDatastore 데이터 변경(추가/수정/삭제) 시 워크플로우를 트리거하는 이벤트 드리븐 방식이다.

액션 카테고리

워크플로우의 각 단계에서 실행할 수 있는 액션은 4가지로 분류된다:

블루프린트(Blueprint)

150+ 사전 구성된 워크플로우 템플릿을 제공한다. 처음부터 만들 필요 없이 블루프린트를 선택하고 커스터마이징하면 된다.

[!example] 블루프린트 예시

  • Suspend Suspicious Okta User: 보안 시그널 → Okta 계정 정지 → Slack 알림
  • Auto-scale ASG: 모니터 알림 → AWS Auto Scaling Group 조정
  • Lambda Rollback: 에러율 급증 → 안정 버전으로 자동 재배포

워크플로우 구성 흐름

  1. 트리거 선택: 모니터, 보안 시그널, 스케줄, 수동 중 택 1
  2. 액션 추가: 액션 카탈로그에서 드래그-앤-드롭으로 단계 연결
  3. 조건 분기: if/else 로직으로 조건별 다른 경로 설정
  4. 데이터 변환: 이전 단계 출력을 다음 단계 입력으로 변환
  5. 휴먼 어프루벌: 필요 시 사람의 승인 단계 삽입
  6. 테스트 및 배포: 테스트 실행 후 활성화

최신 기능 (2025 DASH)

예시

모니터 알림 → Jira 티켓 생성 → Slack 알림의 전형적인 인시던트 대응 워크플로우:

[Monitor: CPU > 90%]
        │
        ▼
[Datadog: 관련 로그/메트릭 수집]
        │
        ▼
[Jira: 티켓 생성 (P1, 담당팀 배정)]
        │
        ▼
[Slack: #incidents 채널에 알림]
        │
        ├─ 승인 → [AWS: EC2 Auto Scaling 조정]
        └─ 거부 → [Slack: 수동 대응 요청]

[!tip] 실무 팁 Toyota Connected는 Workflow Automation으로 ArgoCD API를 연동하여 한밤중 수동 애플리케이션 재시작을 자동화했다. 휴먼 어프루벌 단계를 넣어 안전성과 자동화를 동시에 확보할 수 있다.

참고 자료

관련 노트