[LLM Fine-tuning] Day 3: 데이터셋 큐레이션 - 파인튜닝 데이터 품질 관리

Posted Apr 15, 2026

By Hye Jin Ryoo

5 min read

서론: 모델보다 데이터가 먼저다

파인튜닝 실패의 대부분은 모델 선택이나 하이퍼파라미터가 아니라 데이터 품질 문제다. 잘못된 예시 1%가 전체 학습을 오염시킬 수 있고, 중복 데이터는 과적합을 유발한다. “많을수록 좋다”는 직관은 LLM 파인튜닝에서 자주 틀린다.

1. 데이터 형식 선택

1.1 Instruction Tuning (SFT)

가장 일반적인 형식이다. 지시(instruction)와 이상적인 응답(response) 쌍으로 구성된다.

  
{
  "instruction": "다음 계약서에서 만료일을 추출하라.",
  "input": "본 계약은 2026년 12월 31일에 만료된다.",
  "output": "만료일: 2026-12-31"
}

1.2 Chat / Multi-turn 형식

멀티턴 대화가 목표라면 대화 기록 전체를 학습 샘플로 구성한다.

  
{
  "messages": [
    {"role": "system", "content": "당신은 법률 문서 분석 도우미입니다."},
    {"role": "user",   "content": "이 조항의 의미는?"},
    {"role": "assistant", "content": "..."}
  ]
}

1.3 선호도 데이터 (DPO / RLHF)

응답 품질의 상대적 선호를 학습한다. chosen/rejected 쌍을 구성한다.

  
{
  "prompt":   "계약서 3조를 요약하라.",
  "chosen":   "3조는 납품 기한(30일)과 지체 배상금 조항을 규정한다.",
  "rejected": "3조에는 여러 내용이 있습니다."
}

2. 데이터 품질 필터링 파이프라인

원시 데이터
  └─ 중복 제거 (exact + near-duplicate)
  └─ 길이 필터 (너무 짧거나 긴 샘플 제거)
  └─ 품질 점수 필터 (LLM-as-Judge 또는 규칙 기반)
  └─ 독성/PII 스캔
  └─ 형식 검증 (JSON 파싱 가능 여부 등)
  └─ 최종 큐레이션셋

3. 데이터 수량 가이드

파인튜닝은 생각보다 적은 데이터로도 효과를 낸다.

목표	최소 권장 수량
특정 출력 형식 학습	200 ~ 500건
도메인 어휘/스타일 적응	1,000 ~ 5,000건
복잡한 추론 패턴	5,000건 이상

수량보다 다양성이 중요하다. 유사한 샘플 10,000건보다 다양한 샘플 1,000건이 일반화에 더 유리하다.

4. 데이터 오염 방지

4.1 테스트셋 분리

학습 데이터와 평가 데이터가 겹치면 성능이 과대 추정된다.

데이터 수집 단계에서 train/validation/test를 분리
시간 기반 분리: 최신 데이터를 테스트셋으로 사용

4.2 근접 중복 탐지

완전 일치(exact dedup)만으로는 부족하다. MinHash 또는 임베딩 유사도로 의미적 중복을 탐지한다.

  
# 간단한 MinHash 기반 중복 탐지 흐름
from datasketch import MinHash, MinHashLSH

lsh = MinHashLSH(threshold=0.8, num_perm=128)
# 유사도 0.8 이상이면 중복으로 처리

5. 합성 데이터 활용

레이블된 도메인 데이터가 부족할 때, 강력한 모델로 합성 데이터를 생성할 수 있다.

주의사항:

합성 데이터는 반드시 사람이 일부 검토해야 한다
합성 데이터만으로 학습하면 모델 특성이 교사 모델에 과도하게 수렴한다
실제 데이터와 합성 데이터 비율을 명시적으로 관리한다

6. Day 3 체크리스트

중복 제거(exact + near-dedup)를 데이터 파이프라인에 포함했다.
train/validation/test를 수집 단계에서 분리했다.
품질 필터(LLM-as-Judge 또는 규칙)로 저품질 샘플을 제거했다.
합성 데이터 사용 시 실제 데이터와의 혼합 비율을 기록했다.

다음 글 예고

Day 4에서는 학습 파이프라인 설계를 다룬다. 분산 학습, 체크포인트 전략, 학습 안정성 모니터링 방법을 살펴본다.

LLMOps, Fine-tuning

This post is licensed under CC BY 4.0 by the author.