[LLM Fine-tuning] Day 3: 데이터셋 큐레이션 - 파인튜닝 데이터 품질 관리
[LLM Fine-tuning] Day 3: 데이터셋 큐레이션 - 파인튜닝 데이터 품질 관리
서론: 모델보다 데이터가 먼저다
파인튜닝 실패의 대부분은 모델 선택이나 하이퍼파라미터가 아니라 데이터 품질 문제다. 잘못된 예시 1%가 전체 학습을 오염시킬 수 있고, 중복 데이터는 과적합을 유발한다. “많을수록 좋다”는 직관은 LLM 파인튜닝에서 자주 틀린다.
1. 데이터 형식 선택
1.1 Instruction Tuning (SFT)
가장 일반적인 형식이다. 지시(instruction)와 이상적인 응답(response) 쌍으로 구성된다.
1
2
3
4
5
{
"instruction": "다음 계약서에서 만료일을 추출하라.",
"input": "본 계약은 2026년 12월 31일에 만료된다.",
"output": "만료일: 2026-12-31"
}
1.2 Chat / Multi-turn 형식
멀티턴 대화가 목표라면 대화 기록 전체를 학습 샘플로 구성한다.
1
2
3
4
5
6
7
{
"messages": [
{"role": "system", "content": "당신은 법률 문서 분석 도우미입니다."},
{"role": "user", "content": "이 조항의 의미는?"},
{"role": "assistant", "content": "..."}
]
}
1.3 선호도 데이터 (DPO / RLHF)
응답 품질의 상대적 선호를 학습한다. chosen/rejected 쌍을 구성한다.
1
2
3
4
5
{
"prompt": "계약서 3조를 요약하라.",
"chosen": "3조는 납품 기한(30일)과 지체 배상금 조항을 규정한다.",
"rejected": "3조에는 여러 내용이 있습니다."
}
2. 데이터 품질 필터링 파이프라인
1
2
3
4
5
6
7
원시 데이터
└─ 중복 제거 (exact + near-duplicate)
└─ 길이 필터 (너무 짧거나 긴 샘플 제거)
└─ 품질 점수 필터 (LLM-as-Judge 또는 규칙 기반)
└─ 독성/PII 스캔
└─ 형식 검증 (JSON 파싱 가능 여부 등)
└─ 최종 큐레이션셋
3. 데이터 수량 가이드
파인튜닝은 생각보다 적은 데이터로도 효과를 낸다.
| 목표 | 최소 권장 수량 |
|---|---|
| 특정 출력 형식 학습 | 200 ~ 500건 |
| 도메인 어휘/스타일 적응 | 1,000 ~ 5,000건 |
| 복잡한 추론 패턴 | 5,000건 이상 |
수량보다 다양성이 중요하다. 유사한 샘플 10,000건보다 다양한 샘플 1,000건이 일반화에 더 유리하다.
4. 데이터 오염 방지
4.1 테스트셋 분리
학습 데이터와 평가 데이터가 겹치면 성능이 과대 추정된다.
- 데이터 수집 단계에서 train/validation/test를 분리
- 시간 기반 분리: 최신 데이터를 테스트셋으로 사용
4.2 근접 중복 탐지
완전 일치(exact dedup)만으로는 부족하다. MinHash 또는 임베딩 유사도로 의미적 중복을 탐지한다.
1
2
3
4
5
# 간단한 MinHash 기반 중복 탐지 흐름
from datasketch import MinHash, MinHashLSH
lsh = MinHashLSH(threshold=0.8, num_perm=128)
# 유사도 0.8 이상이면 중복으로 처리
5. 합성 데이터 활용
레이블된 도메인 데이터가 부족할 때, 강력한 모델로 합성 데이터를 생성할 수 있다.
주의사항:
- 합성 데이터는 반드시 사람이 일부 검토해야 한다
- 합성 데이터만으로 학습하면 모델 특성이 교사 모델에 과도하게 수렴한다
- 실제 데이터와 합성 데이터 비율을 명시적으로 관리한다
6. Day 3 체크리스트
- 중복 제거(exact + near-dedup)를 데이터 파이프라인에 포함했다.
- train/validation/test를 수집 단계에서 분리했다.
- 품질 필터(LLM-as-Judge 또는 규칙)로 저품질 샘플을 제거했다.
- 합성 데이터 사용 시 실제 데이터와의 혼합 비율을 기록했다.
다음 글 예고
Day 4에서는 학습 파이프라인 설계를 다룬다. 분산 학습, 체크포인트 전략, 학습 안정성 모니터링 방법을 살펴본다.
This post is licensed under CC BY 4.0 by the author.