관측성 연동
Prometheus·Grafana 관측성 부트스트랩
RED/USE 방법론을 DevOps 관점에서 재해석하고, 알림疲労을 줄이기 위한 라우팅 규칙을 함께 작성합니다. 실습 랩 패키지의 CD 단계와 연결하는 것이 목표입니다.
포함 요소
- 서비스 레벨 목표를 지표로 번역하는 워크시트
- Recording rule과 alert rule 분리 원칙
- Grafana 폴더 권한과 팀별 보드 템플릿
- LogQL과 메트릭을 같은 패널에서 교차 검증
- 실패한 배포를 추적하는 annotation 파이프라인
기대 결과
- 배포 주기와 장애 MTTR을 같은 타임라인에서 볼 수 있습니다.
- 알림 채널별 SLA를 문서에 적시합니다.
FAQ
Datadog을 쓰는 팀도 의미가 있나요?
개념은 이전 가능합니다. 마지막에 상용 SaaS와의 매핑 표를 제공합니다.
샘플 데이터는?
합성 트래픽 생성기와 저장된 시나리오 트레이스를 사용합니다.
알림 채널 연동은 어디까지?
Slack 웹훅까지 기본 포함, PagerDuty는 문서 가이드만 제공합니다.
후기
알림 라우팅 표를 만들면서 “누가 새벽에 깰지”가 명확해졌습니다.