[Beyond DAG] Day 5: 아키텍처 선택 가이드 - 단순 배치인가, 복잡한 상태 머신인가
[Beyond DAG] Day 5: 아키텍처 선택 가이드 - 단순 배치인가, 복잡한 상태 머신인가
서론: 도구 비교보다 문제 구조 분해가 먼저다
오케스트레이션 선택에서 가장 흔한 실수는 “팀이 아는 도구”를 기준으로 결정하는 것이다. 정답은 도구가 아니라 문제 구조에서 나온다.
핵심 판단 축:
- 배치 중심인가, 이벤트/상태 중심인가
- 데이터 자산 가시성이 중요한가
- 장기 실행과 복구 내구성이 중요한가
1. 선택 프레임워크
1.1 Airflow가 적합한 경우
- 정기 배치가 대부분
- 작업 의존성 중심 파이프라인
- 기존 운영 역량/생태계가 탄탄함
1.2 Dagster가 적합한 경우
- 자산 신선도/lineage가 운영 핵심
- 도메인별 데이터 제품 운영
- 품질/관측성 정책을 자산 정의와 결합하려는 경우
1.3 Temporal이 적합한 경우
- 장기 실행 워크플로우
- 외부 시스템 연동/재시도/보상 로직 복잡
- 상태 머신 수준의 내결함성 필요
2. 의사결정 매트릭스
| 요구사항 | 권장 선택 |
|---|---|
| 단순 ETL 배치 | Airflow |
| 자산 중심 분석/ML 파이프라인 | Dagster |
| 이벤트 기반 복잡 워크플로우 | Temporal |
| 혼합 요구(데이터 + 상태 머신) | Dagster + Temporal 조합 |
3. 단계적 전환 전략
빅뱅 전환은 실패 확률이 높다. 안전한 순서는 다음과 같다.
- 핵심 파이프라인 1개 선정
- 기존과 신규를 병행 운영(dual-run)
- SLO/운영 공수/복구 시간 비교
- 승자 패턴을 템플릿화해 점진 확산
4. 운영 거버넌스 원칙
도구가 늘어날수록 표준화가 중요해진다.
- 공통 메타데이터 규약(owners, tags, lineage key)
- 공통 관측 지표(MTTD, MTTR, freshness, success rate)
- 공통 incident 프로세스(runbook, escalation)
도구 다양성은 허용하되, 운영 지표와 책임 모델은 단일화해야 한다.
5. 최종 체크리스트
- 파이프라인을 배치형/이벤트형/상태머신형으로 분류했다.
- 자산 중심 운영 필요성을 정량 지표로 확인했다.
- 복구 내구성 요구사항(RTO/RPO)을 명시했다.
- 전환 PoC의 성공 기준(SLO, 비용, 운영 공수)을 합의했다.
시리즈 마무리
Beyond DAG의 결론은 “DAG를 버리자”가 아니다.
- 단순한 문제에는 단순한 도구를
- 복잡한 상태 문제에는 내구성 있는 워크플로우 엔진을
- 데이터 자산 운영에는 자산 중심 모델을
문제 구조에 맞는 조합을 택하는 것이 2026년 오케스트레이션 전략의 핵심이다.
This post is licensed under CC BY 4.0 by the author.