• 카프카 SQL을 이용한 스트리밍 처리

    이 글은 “카프카, 데이터 플랫폼의 최강자” 책 내용을 정리한 글입니다. 카프카 SQL을 이용한 스트리밍 처리 1. KSQL의 등장 배경 카프카를 데이터 버스로 사용하고, 여기에 있는 데이터를 가공해서 다시 다른 스토리지나 데이터베이스에 저장하는 경우가 많아짐 람다 아키텍처 raw 데이터를 처리해서 기간과 용량에 따라 별도의 저장소를 가져가는 것을 람다 아키텍처라고 한다. 람다...


  • 스파크 완벽 가이드 - Chapter8. 조인

    스파크 완벽 가이드 - Chapter 8. 조인 이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. 1. 조인 표현식 동등 조인 : 왼쪽과 오른쪽 데이터 셋에 지정된 키가 동일하면 데이터를 결합 복합 데이터 타입을 조인에 사용할 수도 있음 2. 조인 타입 내부 조인...


  • 스파크 완벽 가이드 - Chapter5. 구조적 API 기본 연산

    스파크 완벽 가이드 - 구조적 API 기본 연산 이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. DataFrame은 Row 타입의 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. 스키마는 각 컬럼명과 데이터 타입을 정의한다. DataFrame의 파티셔닝은 DataFrame이나 Dataset이 클러스터에서 물리적으로 배치되는...


  • 러닝 스파크 - Chapter3. RDD로 프로그래밍 하기

    RDD로 프로그래밍 하기 이 글은 “러닝 스파크” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. RDD 기초 RDD : 분산되어 존재하는 변경 불가능한 데이터 요소들의 모임 스파크에서의 모든 작업은 새로운 RDD를 만들거나, 존재하는 RDD를 변형하거나, 결과 계산을 위해 RDD에서 연산을 호출하는 것 중의 하나로 표현된다. 내부적으로 스파크는...


  • 스파크 완벽 가이드 - Chapter20. 스트림 처리의 기초

    스파크 완벽 가이드 - Chapter20. 스트림 처리의 기초 구조적 스트리밍이란? DataFrame이나 Dataset 코드와 쉽게 통합할 수 있는 신규 스트리밍 API 구조적 스트리밍 API는 스트리밍 애플리케이션을 개발할 때 선택할 수 있는 프레임워크이다. 구조적 스트리밍은 DStream의 주요 기능에 대한 상위 기능을 제공한다. 1. 스트림 처리란? 스트림 처리는 신규 데이터를 끊임없이 처리해 결과를...