블로그 RSS 피드 소스 안내
구독 중인 기술 블로그 RSS 피드 목록 이 블로그는 다양한 기술 소식을 RSS 피드로 구독하여 콘텐츠를 생성하고 있습니다. 토스 기술 블로그: https://toss.tech/rss.xml 카카오 기술 블로그: https://tech.kakao.com/feed/ 당근(Daangn) 미디엄 블로그: https://medium.com/f...
구독 중인 기술 블로그 RSS 피드 목록 이 블로그는 다양한 기술 소식을 RSS 피드로 구독하여 콘텐츠를 생성하고 있습니다. 토스 기술 블로그: https://toss.tech/rss.xml 카카오 기술 블로그: https://tech.kakao.com/feed/ 당근(Daangn) 미디엄 블로그: https://medium.com/f...
서론: 포맷이 아니라 Catalog가 병목이 되는 시점 현업 레이크하우스 장애의 상당수는 파일 포맷 문제가 아니다. 실제 문제는 다음에서 나온다. 여러 엔진(Spark/Flink/Trino) 간 메타데이터 일관성 테이블 커밋 충돌과 롤백 전략 데이터 배포(개발/검증/운영) 파이프라인의 버전 관리 이 지점에서 Catalog는 단순 “...
서론: 삭제는 언제나 비싸다 레이크하우스에서 가장 비싼 연산은 종종 DELETE와 UPDATE다. Parquet는 불변 파일이기 때문에, 전통적으로는 파일 전체를 다시 써야 했다. 이를 바꾸는 기술이 두 가지다. Deletion Vector (DV): “어떤 행을 무시할지” 별도 비트맵/인덱스로 기록 Merge-on-Read (MoR):...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 인터넷은 본래 익명성과 프라이버시 보호를 지향하지만, 중앙집중형 플랫폼이 이 특성을 훼손함 정부는 단일 기업에 명령서 한 장만 보내면 사용자 식별,...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 직장 초기에 상사에게 이메일을 보낼 때 문법과 어조를 완벽히 맞추려 애쓴 경험이 소개됨 반면 상사들은 약어, 오타, 이모지, 비격식체로 답장을 보내...
서론: 스트리밍 업데이트는 Iceberg의 약한 고리였다 분석 쿼리 중심에서는 Iceberg가 매우 강력하다. 하지만 초당 수천 건의 upsert/delete가 들어오면, file rewrite 기반 모델은 빠르게 비싸진다. Paimon은 여기서 출발한다. 쓰기 경로: LSM-tree 스타일로 append + compaction 읽기 경...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 뉴욕시 공립병원 시스템이 팔란티어(Palantir) 와 계약을 맺고 병원 청구 효율화를 위해 약 400만 달러를 지급함 팔란티어는 메디케이드 및 공...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 마그누스 칼슨이 독일 바이센하우스에서 열린 2026 FIDE 프리스타일 체스 세계선수권에서 우승하며 첫 공식 FIDE 인정 타이틀을 획득 결승전에서...
서론: 테이블 포맷은 결국 메타데이터 엔진이다 레이크하우스에서 성능 문제를 분석할 때 많은 팀이 파일 포맷(Parquet/ORC)만 본다. 하지만 실제 병목은 종종 메타데이터 트리에서 발생한다. Iceberg는 이를 해결하기 위해, “디렉터리 스캔”이 아니라 스냅샷 기반 메타데이터 탐색으로 쿼리 계획을 만든다. 핵심은 세 가지다. 원자적 ...
이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 대규모 모델 시대에 데이터 품질이 모델 성능의 상한을 결정하며, 이를 위한 체계적 데이터 엔지니어링 지식을 제공하는 오픈소스 가이드북 사전학습 데이...