[AISec] Day 2: 데이터 유출(Data Leakage) - RAG 파이프라인에서의 PII 탐지 및 차단

Posted Mar 31, 2026

By Hye Jin Ryoo

3 min read

서론: RAG는 정확도를 높이지만 유출면도 넓힌다

RAG는 모델 환각을 줄이지만, 동시에 민감 데이터 접근 경로를 늘린다. 회수된 문서가 곧 모델 응답의 재료가 되기 때문이다.

즉, 유출은 모델 자체보다 파이프라인 경계에서 자주 발생한다.

장점은 빠른 도입, 단점은 포맷 변형에 취약하다.

엔티티 인식(NER)으로 이름/주소/조직명 등 문맥 기반 탐지 가능.

운영에서는 규칙 + ML 혼합이 현실적이다.

Source -> PII Scan/Tag -> Redaction/Tokenization -> Indexing
User Query -> AuthZ Filter -> Retrieval -> Response DLP Filter

핵심은 인덱싱 전과 응답 전, 두 번 검사하는 이중 방어다.

PII 차단은 탐지만으로 부족하다. 회수 단계에서 주체 권한을 함께 평가해야 한다.

필수 조건:

보안 사고의 상당수는 로그 경로에서 발생한다.

Day 3에서는 벡터 데이터베이스 보안으로 넘어가, 인덱스 탈취와 멤버십 추론 공격을 어떻게 방어할지 분석한다.

This post is licensed under CC BY 4.0 by the author.