Hye Jin Ryoo

[LLM 추론 최적화] Day 1: 왜 추론 비용이 문제인가

서론: 학습보다 추론이 더 오래 산다 LLM을 학습하는 것은 한 번의 이벤트다. 추론은 서비스가 살아있는 동안 매일, 매 요청마다 실행된다. 규모가 커질수록 추론 비용이 학습 비용을 압도한다. GPT-4 수준 모델 하나를 A100 클러스터에서 서빙하면 하루에 수십만 달러가 나온다. 추론 최적화 1%는 직접적인 비용 절감이다. 1. 추론 파이프라인...