Hye Jin Ryoo

[Rust Wave] Day 2: Spark 없이 Delta Lake 다루기, Delta-RS와 Python 바인딩

서론: “작은 작업에 Spark는 너무 무겁다” Delta Lake는 ACID 트랜잭션, 타임 트래블, 스키마 검증을 제공하며 모던 데이터 플랫폼의 표준 스토리지 포맷으로 자리 잡았다. 하지만 지금까지 Delta Lake를 다루기 위한 유일한 입장권은 Apache Spark였다. 단순히 S3에 있는 1GB짜리 Delta 테이블을 읽거나, 몇 개의 ...

[Rust Wave] Day 1: Pandas는 죽었다, Polars의 Lazy Evaluation과 메모리 모델

서론: “RAM의 10배” 법칙의 종말 지난 10여 년간 Python 데이터 생태계에서 Pandas는 절대적인 지위를 누렸다. 하지만 데이터 엔지니어들에게는 암묵적인 룰이 있었다. “Pandas로 데이터를 처리하려면, 데이터 크기의 5배에서 10배에 달하는 RAM이 필요하다.” 이는 Pandas가 NumPy 기반으로 설계되었음에도 불구하고, 문자열...

위스콘신 여러 지역사회가 수십억 달러 규모 데이터센터 유치를 위해 비밀유지 계약을 체결

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 위스콘신의 최소 4개 지방정부가 데이터센터 개발사와 비밀유지계약(NDA) 을 맺어 대규모 프로젝트를 1년 이상 비공개로 추진함 Meta, Micro...

Peerweb: WebTorrent을 통한 탈중앙화 웹사이트 호스팅

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 WebTorrent 기반 피어 투 피어 네트워크를 이용해 웹사이트를 중앙 서버 없이 배포하는 시스템 사용자는 웹사이트 폴더를 드래그 앤 드롭하여 업...

Python subprocess/psutil: 15년 묵은 Busy-loop 폴링을 끝내고 진정한 이벤트 기반 대기로 전환

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 요약: Python의 subprocess 모듈과 psutil 라이브러리는 지난 15년 동안 프로세스 종료 대기(wait()) 시 sleep과 wai...

AGENTS.md가 에이전트 평가에서 skills보다 우수한 성능을 보임

이 글은 GeekNews - 개발/기술/스타트업 뉴스 서비스 블로그에 게시된 글을 자동으로 가져온 것입니다. 더 자세한 내용과 원문은 아래 링크를 참고해 주세요. ➡️ 원문 보러 가기 원문 요약 Next.js 16 API를 대상으로 한 평가에서, 프로젝트 루트에 포함된 AGENTS.md 문서 인덱스가 skills 기반 접근보다 높은 정확도를...