[AISec] Day 4: 가드레일(Guardrails) 설계 - 네이티브 필터링과 외부 솔루션 비교
[AISec] Day 4: 가드레일(Guardrails) 설계 - 네이티브 필터링과 외부 솔루션 비교
서론: 가드레일은 한 계층이 아니라 다층 방어다
LLM 보안에서 가드레일은 “금칙어 필터”가 아니다. 입력-중간 처리-출력 전 과정에 걸친 정책 집행 체계다.
1. 네이티브 필터링 접근
모델/플랫폼이 제공하는 기본 안전 기능을 활용한다.
장점:
- 빠른 적용
- 운영 복잡도 낮음
- 기본 안전 기준 확보 용이
한계:
- 도메인 특화 정책 반영 제한
- 정책 설명 가능성 부족
- 세밀한 감사/증적 요구 대응이 어려울 수 있음
2. 외부 가드레일 계층
모델 호출 전후에 별도 정책 엔진/필터를 둔다.
1
User Input -> Pre-check Guardrail -> LLM -> Post-check Guardrail -> Response
장점:
- 조직 맞춤 정책 구현
- 감사 로그와 의사결정 추적 용이
- 멀티 모델 환경에서 정책 일관성 유지
단점:
- 지연/운영 복잡도 증가
- 정책 충돌 관리 필요
3. 무엇을 어디서 검사할 것인가
- 입력 단계: 인젝션/금지 요청/민감정보 포함 여부
- 컨텍스트 단계: 회수 문서 신뢰도/권한 위반 여부
- 출력 단계: 유해/위험 콘텐츠, PII 유출, 정책 위반
- 툴 호출 단계: 허용된 액션인지, 파라미터 안전성
가장 흔한 실패는 출력만 검사하는 단일 필터 구조다.
4. 비교 가이드
| 기준 | 네이티브 중심 | 외부 가드레일 중심 |
|---|---|---|
| 도입 속도 | 빠름 | 중간 |
| 커스터마이징 | 제한적 | 높음 |
| 감사/추적성 | 상대적 약함 | 강함 |
| 멀티 모델 대응 | 제한적 | 우수 |
현실적인 선택은 대개 하이브리드다.
5. Day 4 체크리스트
- 입력/컨텍스트/출력/툴 호출의 4단계 검사 지점을 정의했다.
- 네이티브 필터의 한계를 보완할 외부 정책을 선별했다.
- 정책 위반 시 차단/완화/재질문 플로우를 정했다.
- 가드레일 오탐률과 우회 시도 지표를 모니터링한다.
다음 글 예고
Day 5에서는 Red Teaming AI를 다룬다. 모델과 파이프라인 취약점을 실제 공격 관점에서 테스트하는 방법을 정리한다.
This post is licensed under CC BY 4.0 by the author.