[AISec] Day 3: 벡터 데이터베이스 보안 - 인덱스 탈취 및 멤버십 추론 공격(Membership Inference)
[AISec] Day 3: 벡터 데이터베이스 보안 - 인덱스 탈취 및 멤버십 추론 공격(Membership Inference)
서론: 벡터는 익명 데이터가 아니다
많은 팀이 임베딩을 “원문보다 안전한 표현”으로 오해한다. 하지만 벡터 역시 민감 정보의 흔적을 담을 수 있고, 인덱스 유출 시 공격 표면이 된다.
1. 주요 위협 모델
- 인덱스 탈취: 벡터/메타데이터 덤프 유출
- Membership Inference: 특정 데이터가 학습/인덱싱됐는지 추론
- 유사도 악용 쿼리: 반복 질의로 민감 샘플 근접 탐색
- 메타데이터 노출: 문서 출처/권한 태그로 간접 정보 유출
2. Membership Inference 메커니즘
공격자는 특정 후보 텍스트와 쿼리 결과의 유사도/랭크 변화를 관측해 포함 여부를 추정한다.
위험 신호:
- 특정 입력에서 과도하게 높은 일관 유사도
- 유사도 분포가 일반 질의와 다른 패턴
정확한 원문 복원이 아니어도, “존재 여부”만으로 개인정보 침해가 성립할 수 있다.
3. 방어 전략
3.1 접근 통제
- 네트워크 격리 + 강한 인증
- 쿼리 rate limit
- API key 스코프 최소화
3.2 데이터 보호
- 민감 문서 사전 비식별화
- 벡터와 메타데이터 분리 저장
- 암호화(저장/전송)
3.3 질의 보호
- 비정상 반복 질의 탐지
- 유사도 점수 노출 최소화
- 결과 개수/정밀도 제한
4. 운영 관측 지표
- 사용자별 유사 질의 반복률
- 민감 태그 문서 조회 비율
- 이상 점수 분포 편차
- 인덱스 export/backup 접근 이력
5. Day 3 체크리스트
- 벡터DB 접근 경로를 서비스 ID 기반으로 제한했다.
- 민감 데이터 임베딩 전 비식별화 정책을 적용했다.
- 유사도 점수/메타데이터 노출 범위를 축소했다.
- Membership inference 시나리오를 보안 테스트에 포함했다.
다음 글 예고
Day 4에서는 안전장치 설계로 넘어가, 네이티브 필터링과 외부 가드레일 솔루션의 트레이드오프를 비교한다.
This post is licensed under CC BY 4.0 by the author.