Post

[AISec] Day 4: 가드레일(Guardrails) 설계 - 네이티브 필터링과 외부 솔루션 비교

[AISec] Day 4: 가드레일(Guardrails) 설계 - 네이티브 필터링과 외부 솔루션 비교

서론: 가드레일은 한 계층이 아니라 다층 방어다

LLM 보안에서 가드레일은 “금칙어 필터”가 아니다. 입력-중간 처리-출력 전 과정에 걸친 정책 집행 체계다.

1. 네이티브 필터링 접근

모델/플랫폼이 제공하는 기본 안전 기능을 활용한다.

장점:

  • 빠른 적용
  • 운영 복잡도 낮음
  • 기본 안전 기준 확보 용이

한계:

  • 도메인 특화 정책 반영 제한
  • 정책 설명 가능성 부족
  • 세밀한 감사/증적 요구 대응이 어려울 수 있음

2. 외부 가드레일 계층

모델 호출 전후에 별도 정책 엔진/필터를 둔다.

1
User Input -> Pre-check Guardrail -> LLM -> Post-check Guardrail -> Response

장점:

  • 조직 맞춤 정책 구현
  • 감사 로그와 의사결정 추적 용이
  • 멀티 모델 환경에서 정책 일관성 유지

단점:

  • 지연/운영 복잡도 증가
  • 정책 충돌 관리 필요

3. 무엇을 어디서 검사할 것인가

  1. 입력 단계: 인젝션/금지 요청/민감정보 포함 여부
  2. 컨텍스트 단계: 회수 문서 신뢰도/권한 위반 여부
  3. 출력 단계: 유해/위험 콘텐츠, PII 유출, 정책 위반
  4. 툴 호출 단계: 허용된 액션인지, 파라미터 안전성

가장 흔한 실패는 출력만 검사하는 단일 필터 구조다.

4. 비교 가이드

기준네이티브 중심외부 가드레일 중심
도입 속도빠름중간
커스터마이징제한적높음
감사/추적성상대적 약함강함
멀티 모델 대응제한적우수

현실적인 선택은 대개 하이브리드다.

5. Day 4 체크리스트

  1. 입력/컨텍스트/출력/툴 호출의 4단계 검사 지점을 정의했다.
  2. 네이티브 필터의 한계를 보완할 외부 정책을 선별했다.
  3. 정책 위반 시 차단/완화/재질문 플로우를 정했다.
  4. 가드레일 오탐률과 우회 시도 지표를 모니터링한다.

다음 글 예고

Day 5에서는 Red Teaming AI를 다룬다. 모델과 파이프라인 취약점을 실제 공격 관점에서 테스트하는 방법을 정리한다.

This post is licensed under CC BY 4.0 by the author.