• 스파크 완벽 가이드 - Chapter 10. Spark SQL

    스파크 완벽 가이드 - 구조적 API 기본 연산 이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. Chapter 10. Spark SQL Spark SQL을 사용해 데이터베이스에 생성된 뷰나 테이블에 SQL 쿼리를 실행할 수 있다. 스파크 SQL은 DataFrame과 Dataset API에 통합되어 있다. 따라서 데이터 변환...


  • Spark - Filter Pushdown

    Spark - Predicate Pushdown 스파크는 쿼리를 태스크로 쪼갠뒤에 익스큐터에게 태스크를 전송한다. 쿼리의 성능을 향상시키기 위해서는 익스큐터로 전송되는 데이터의 양을 줄이는 것이다. 실제로 필요하지 않은 데이터 로딩을 방지하는 한 가지 방법은 filter pushdown(predicate pushdown)이다. predicate pushdown을 사용하면 데이터소스에서 필터링을 수행할 수 있다. 만약에 익스큐터가 데이터와 동일한 물리 머신에 있지 않은 경우엔...


  • DDD START - 2. 아키텍처 개요

    이 글은 “DDD START! - 도메인 주도 설계 구현과 핵심 개념 익히히 (최범균 저)” 책 내용을 정리한 글입니다. DDD Start - 2. 아키텍처 개요 네 개의 영역 표현 or UI (Presentation) : 사용자의 요청을 받아 응용 영역에 전달하고 응용 영역의 처리 결과를 다시 사용자에게 보여주는 역할 사용자의 요청을 해석해서 응용...


  • 카프카 SQL을 이용한 스트리밍 처리

    이 글은 “카프카, 데이터 플랫폼의 최강자” 책 내용을 정리한 글입니다. 카프카 SQL을 이용한 스트리밍 처리 1. KSQL의 등장 배경 카프카를 데이터 버스로 사용하고, 여기에 있는 데이터를 가공해서 다시 다른 스토리지나 데이터베이스에 저장하는 경우가 많아짐 람다 아키텍처 raw 데이터를 처리해서 기간과 용량에 따라 별도의 저장소를 가져가는 것을 람다 아키텍처라고 한다. 람다...


  • 스파크 완벽 가이드 - Chapter8. 조인

    스파크 완벽 가이드 - Chapter 8. 조인 이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. 1. 조인 표현식 동등 조인 : 왼쪽과 오른쪽 데이터 셋에 지정된 키가 동일하면 데이터를 결합 복합 데이터 타입을 조인에 사용할 수도 있음 2. 조인 타입 내부 조인...