블로그 RSS 피드 소스 안내
구독 중인 기술 블로그 RSS 피드 목록 이 블로그는 다양한 기술 소식을 RSS 피드로 구독하여 콘텐츠를 생성하고 있습니다. 토스 기술 블로그: https://toss.tech/rss.xml 카카오 기술 블로그: https://tech.kakao.com/feed/ 당근(Daangn) 미디엄 블로그: https://medium.com/f...
구독 중인 기술 블로그 RSS 피드 목록 이 블로그는 다양한 기술 소식을 RSS 피드로 구독하여 콘텐츠를 생성하고 있습니다. 토스 기술 블로그: https://toss.tech/rss.xml 카카오 기술 블로그: https://tech.kakao.com/feed/ 당근(Daangn) 미디엄 블로그: https://medium.com/f...
서론: Decode가 느린 이유 LLM Decode는 토큰을 하나씩 생성한다. 매 스텝마다 이전 모든 토큰의 Key-Value 쌍을 다시 읽어야 한다. 이것이 KV 캐시다. 문제는 이 캐시를 어떻게 관리하느냐에 따라 메모리 효율과 처리량이 크게 달라진다. 1. KV 캐시란 Transformer의 Attention 연산에서 매 토큰 생성 시 필요한...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 Obsidian Community가 플러그인·테마용 새 디렉터리와 개발자 대시보드로 출시되어 제출, 관리, 발견, 사용 흐름을 통합함 2020년 O...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 15년 전 클라우드 중심의 Chromebook을 선보인 Google이 이번에는 Gemini AI를 핵심에 내장한 새로운 카테고리의 노트북 Googl...
서론: 가중치를 줄이면 무엇이 달라지나 LLaMA-3 70B 모델의 FP16 가중치는 약 140GB다. A100 80GB GPU 2장이 필요하다. 이를 INT4로 양자화하면 약 35GB, A100 1장에 들어간다. 메모리가 절반으로 줄면 GPU 수가 줄고 비용도 줄어든다. 양자화는 고정밀도 부동소수점 가중치를 낮은 비트 정수로 변환하는 기술이다. ...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 현재 진행 중인 작업과 새로 떠올린 아이디어를 공유해 달라는 질문임 …
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 YCOMBINATOR.FYI는 YC 비공식 기록으로 39개 항목과 $23.0B 소각 자본을 집계함 Delve는 493개 이상 조작 감사 보고서 의혹...
서론: 학습보다 추론이 더 오래 산다 LLM을 학습하는 것은 한 번의 이벤트다. 추론은 서비스가 살아있는 동안 매일, 매 요청마다 실행된다. 규모가 커질수록 추론 비용이 학습 비용을 압도한다. GPT-4 수준 모델 하나를 A100 클러스터에서 서빙하면 하루에 수십만 달러가 나온다. 추론 최적화 1%는 직접적인 비용 절감이다. 1. 추론 파이프라인...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 프랑스 의회 정보대표단은 WhatsApp, Signal, Telegram의 종단 간 암호화를 약화해 치안판사와 정보요원이 현재 플랫폼도 읽을 수 없...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 Zed의 Theme Builder는 전체 기능을 사용하려면 데스크톱에서 열어야 하며, 웹에서는 View Theme Extensions로 사용 가능한...