Post

VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다.
더 자세한 내용과 원문은 아래 링크를 참고해 주세요.

➡️ 원문 보러 가기


원문 요약

VibeThinker-3B는 3B 파라미터만으로 검증 가능한 추론을 어디까지 압축할 수 있는지 실험한 소형 밀집 모델임 학습 파이프라인은 Spectrum-to-Signal 사후학습을 바탕으로 커리큘럼 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기증류를 결합함 AI…

This post is licensed under CC BY 4.0 by the author.