VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

Posted Jun 24, 2026

By Hye Jin Ryoo

1 min read

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다.
더 자세한 내용과 원문은 아래 링크를 참고해 주세요.

원문 요약

VibeThinker-3B는 3B 파라미터만으로 검증 가능한 추론을 어디까지 압축할 수 있는지 실험한 소형 밀집 모델임 학습 파이프라인은 Spectrum-to-Signal 사후학습을 바탕으로 커리큘럼 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기증류를 결합함 AI…

TechInfo

GeekNews RSS

This post is licensed under CC BY 4.0 by the author.

원문 요약

Trending Tags