블로그 RSS 피드 소스 안내
구독 중인 기술 블로그 RSS 피드 목록 이 블로그는 다양한 기술 소식을 RSS 피드로 구독하여 콘텐츠를 생성하고 있습니다. 토스 기술 블로그: https://toss.tech/rss.xml 카카오 기술 블로그: https://tech.kakao.com/feed/ 당근(Daangn) 미디엄 블로그: https://medium.com/f...
구독 중인 기술 블로그 RSS 피드 목록 이 블로그는 다양한 기술 소식을 RSS 피드로 구독하여 콘텐츠를 생성하고 있습니다. 토스 기술 블로그: https://toss.tech/rss.xml 카카오 기술 블로그: https://tech.kakao.com/feed/ 당근(Daangn) 미디엄 블로그: https://medium.com/f...
서론: 최적화는 배포 이후에도 계속된다 추론 서버를 띄우고 모델을 올렸다고 해서 끝이 아니다. 트래픽 패턴이 바뀌고, 모델이 교체되고, 비용이 예상을 초과한다. 운영 단계의 최적화는 구축 단계만큼 중요하다. 1. 핵심 지표 대시보드 운영에서 봐야 할 지표를 계층별로 나눈다. 비즈니스 지표 - GPU 비용 / 1000 요청 - 요청당 생성...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 Claude Code Max를 5개월 구독한 뒤 codex를 시험해보고, 다시 Claude Design의 이전 프로젝트로 돌아갔지만 더는 접근할 수...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 Elevator는 디버그 정보·소스 코드·바이너리 레이아웃 가정 없이 x86-64 실행 파일 전체를 AArch64로 정적으로 번역함 코드·데이터 판...
이 글은 당근 테크 블로그 - Medium 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 요약 정보가 없습니다.
서론: 모델만 있어도 서비스가 되지 않는다 양자화된 모델이 있고 최적화 기법을 알더라도, 이를 실제 트래픽에 안정적으로 서빙하려면 추론 서버가 필요하다. 어떤 프레임워크를 선택하느냐는 운영 복잡도, 처리량, 지연에 직접 영향을 준다. 1. 주요 추론 프레임워크 비교 항목 vLLM TGI ...
이 글은 토스 기술 블로그, 토스 테크 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 모두가 열심히 해도 계속 비는 문제, 토스가 그 회색지대를 해결하는 법
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 AI가 얼굴 비주얼 승자를 골라주고 외모 능력치를 분석해주는 Better Than You를 소개합니다! 주위에 대결을 붙여보고 싶은 상대가 있나요?...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 Eurostile Bold Extended만으로도 영화적 시대감을 만들 수 있지만, 여섯 가지 변형을 더하면 텍스트가 훨씬 더 미래적으로 보임 단순...
서론: Decode가 느린 이유 LLM Decode는 토큰을 하나씩 생성한다. 매 스텝마다 이전 모든 토큰의 Key-Value 쌍을 다시 읽어야 한다. 이것이 KV 캐시다. 문제는 이 캐시를 어떻게 관리하느냐에 따라 메모리 효율과 처리량이 크게 달라진다. 1. KV 캐시란 Transformer의 Attention 연산에서 매 토큰 생성 시 필요한...