Post

[Beyond DAG] Day 5: 아키텍처 선택 가이드 - 단순 배치인가, 복잡한 상태 머신인가

[Beyond DAG] Day 5: 아키텍처 선택 가이드 - 단순 배치인가, 복잡한 상태 머신인가

서론: 도구 비교보다 문제 구조 분해가 먼저다

오케스트레이션 선택에서 가장 흔한 실수는 “팀이 아는 도구”를 기준으로 결정하는 것이다. 정답은 도구가 아니라 문제 구조에서 나온다.

핵심 판단 축:

  1. 배치 중심인가, 이벤트/상태 중심인가
  2. 데이터 자산 가시성이 중요한가
  3. 장기 실행과 복구 내구성이 중요한가

1. 선택 프레임워크

1.1 Airflow가 적합한 경우

  • 정기 배치가 대부분
  • 작업 의존성 중심 파이프라인
  • 기존 운영 역량/생태계가 탄탄함

1.2 Dagster가 적합한 경우

  • 자산 신선도/lineage가 운영 핵심
  • 도메인별 데이터 제품 운영
  • 품질/관측성 정책을 자산 정의와 결합하려는 경우

1.3 Temporal이 적합한 경우

  • 장기 실행 워크플로우
  • 외부 시스템 연동/재시도/보상 로직 복잡
  • 상태 머신 수준의 내결함성 필요

2. 의사결정 매트릭스

요구사항권장 선택
단순 ETL 배치Airflow
자산 중심 분석/ML 파이프라인Dagster
이벤트 기반 복잡 워크플로우Temporal
혼합 요구(데이터 + 상태 머신)Dagster + Temporal 조합

3. 단계적 전환 전략

빅뱅 전환은 실패 확률이 높다. 안전한 순서는 다음과 같다.

  1. 핵심 파이프라인 1개 선정
  2. 기존과 신규를 병행 운영(dual-run)
  3. SLO/운영 공수/복구 시간 비교
  4. 승자 패턴을 템플릿화해 점진 확산

4. 운영 거버넌스 원칙

도구가 늘어날수록 표준화가 중요해진다.

  • 공통 메타데이터 규약(owners, tags, lineage key)
  • 공통 관측 지표(MTTD, MTTR, freshness, success rate)
  • 공통 incident 프로세스(runbook, escalation)

도구 다양성은 허용하되, 운영 지표와 책임 모델은 단일화해야 한다.

5. 최종 체크리스트

  1. 파이프라인을 배치형/이벤트형/상태머신형으로 분류했다.
  2. 자산 중심 운영 필요성을 정량 지표로 확인했다.
  3. 복구 내구성 요구사항(RTO/RPO)을 명시했다.
  4. 전환 PoC의 성공 기준(SLO, 비용, 운영 공수)을 합의했다.

시리즈 마무리

Beyond DAG의 결론은 “DAG를 버리자”가 아니다.

  • 단순한 문제에는 단순한 도구를
  • 복잡한 상태 문제에는 내구성 있는 워크플로우 엔진을
  • 데이터 자산 운영에는 자산 중심 모델을

문제 구조에 맞는 조합을 택하는 것이 2026년 오케스트레이션 전략의 핵심이다.

This post is licensed under CC BY 4.0 by the author.