• 스파크 완벽 가이드 - Chapter5. 구조적 API 기본 연산

    스파크 완벽 가이드 - 구조적 API 기본 연산 이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. 구조적 API 기본 연산 DataFrame은 ROW 타입이 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. 스키마는 각 컬럼명과 데이터 타입을 정의한다. DataFrame의 파티셔닝은 DataFrame이나...


  • 쿠버네티스 입문 - 헬름

    이 글은 “쿠버테니스 입문 - 헬름” 책 내용을 정리한 글입니다. 헬름 소개 헬름은 템플릿 파일들의 집합(차트)을 관리하는 쿠버네티스 패키지 매니저 도구이다. 헬름은 차트와 차트 압축 파일을 만들 수 있다. 그리고 차트가 저장된 차트 저장소(Chart Repository)와 연결해 쿠버네티스 클러스터에 차트를 설치하거나 삭제할 수 있다. 헬름 차트들의 배포 주기를 관리할 수도 있다....


  • 스파크 완벽 가이드 - Chapter 10. Spark SQL

    스파크 완벽 가이드 - 구조적 API 기본 연산 이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. Chapter 10. Spark SQL Spark SQL을 사용해 데이터베이스에 생성된 뷰나 테이블에 SQL 쿼리를 실행할 수 있다. 스파크 SQL은 DataFrame과 Dataset API에 통합되어 있다. 따라서 데이터 변환...


  • Spark - Filter Pushdown

    Spark - Predicate Pushdown 스파크는 쿼리를 태스크로 쪼갠뒤에 익스큐터에게 태스크를 전송한다. 쿼리의 성능을 향상시키기 위해서는 익스큐터로 전송되는 데이터의 양을 줄이는 것이다. 실제로 필요하지 않은 데이터 로딩을 방지하는 한 가지 방법은 filter pushdown(predicate pushdown)이다. predicate pushdown을 사용하면 데이터소스에서 필터링을 수행할 수 있다. 만약에 익스큐터가 데이터와 동일한 물리 머신에 있지 않은 경우엔...


  • DDD START - 2. 아키텍처 개요

    이 글은 “DDD START! - 도메인 주도 설계 구현과 핵심 개념 익히히 (최범균 저)” 책 내용을 정리한 글입니다. DDD Start - 2. 아키텍처 개요 네 개의 영역 표현 or UI (Presentation) : 사용자의 요청을 받아 응용 영역에 전달하고 응용 영역의 처리 결과를 다시 사용자에게 보여주는 역할 사용자의 요청을 해석해서 응용...