Hye Jin Ryoo

[Modern Table Format] Day 5: 최종 비교 - 하둡의 유산에서 벗어난 클라우드 네이티브 스토리지 전략

서론: 이제 질문은 “무엇이 최고인가”가 아니다 현대 데이터 플랫폼의 핵심 질문은 단일 벤더/포맷 선택이 아니다. 배치와 스트리밍을 어떻게 공존시킬 것인가 쓰기 증폭과 읽기 지연을 어디서 균형 잡을 것인가 버전 관리와 거버넌스를 어떤 제어 평면에서 운영할 것인가 즉, 진짜 설계 대상은 테이블이 아니라 운영 모델이다. 1. 5일 요...

[Modern Table Format] Day 4: Catalog 전쟁 - Nessie와 REST Catalog가 지향하는 데이터 버전 관리

서론: 포맷이 아니라 Catalog가 병목이 되는 시점 현업 레이크하우스 장애의 상당수는 파일 포맷 문제가 아니다. 실제 문제는 다음에서 나온다. 여러 엔진(Spark/Flink/Trino) 간 메타데이터 일관성 테이블 커밋 충돌과 롤백 전략 데이터 배포(개발/검증/운영) 파이프라인의 버전 관리 이 지점에서 Catalog는 단순 “...

HackMyClaw - 프롬프트 인젝션 챌린지 | 100달러 현상금

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 이메일 기반 AI 프롬프트 인젝션 공격 실험으로, 참가자는 OpenClaw의 이메일 어시스턴트 Fiu로부터 비밀 파일 secrets.env를 유출해...

[Modern Table Format] Day 3: Deletion Vectors와 Merge-on-Read - 쓰기 성능 최적화의 기술

서론: 삭제는 언제나 비싸다 레이크하우스에서 가장 비싼 연산은 종종 DELETE와 UPDATE다. Parquet는 불변 파일이기 때문에, 전통적으로는 파일 전체를 다시 써야 했다. 이를 바꾸는 기술이 두 가지다. Deletion Vector (DV): “어떤 행을 무시할지” 별도 비트맵/인덱스로 기록 Merge-on-Read (MoR):...

서비스가 아닌 프로토콜을 사용하라

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 인터넷은 본래 익명성과 프라이버시 보호를 지향하지만, 중앙집중형 플랫폼이 이 특성을 훼손함 정부는 단일 기업에 명령서 한 장만 보내면 사용자 식별,...

특권은 잘못된 문법이다

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 직장 초기에 상사에게 이메일을 보낼 때 문법과 어조를 완벽히 맞추려 애쓴 경험이 소개됨 반면 상사들은 약어, 오타, 이모지, 비격식체로 답장을 보내...

[Modern Table Format] Day 2: Apache Paimon - 스트리밍 처리에 특화된 LSM-tree 기반 테이블 포맷

서론: 스트리밍 업데이트는 Iceberg의 약한 고리였다 분석 쿼리 중심에서는 Iceberg가 매우 강력하다. 하지만 초당 수천 건의 upsert/delete가 들어오면, file rewrite 기반 모델은 빠르게 비싸진다. Paimon은 여기서 출발한다. 쓰기 경로: LSM-tree 스타일로 append + compaction 읽기 경...

뉴욕시 공립병원, 팔란티어에 수백만 달러 지급

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 뉴욕시 공립병원 시스템이 팔란티어(Palantir) 와 계약을 맺고 병원 청구 효율화를 위해 약 400만 달러를 지급함 팔란티어는 메디케이드 및 공...